Dubai Telegraph - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.278799
AFN 77.332466
ALL 96.575617
AMD 445.1876
ANG 2.085576
AOA 1068.388216
ARS 1684.735918
AUD 1.75613
AWG 2.09862
AZN 1.984015
BAM 1.955298
BBD 2.351906
BDT 142.873314
BGN 1.955951
BHD 0.439244
BIF 3450.13256
BMD 1.165091
BND 1.512264
BOB 8.068928
BRL 6.18139
BSD 1.167705
BTN 104.895516
BWP 15.51395
BYN 3.380546
BYR 22835.780461
BZD 2.348507
CAD 1.624445
CDF 2598.152383
CHF 0.935795
CLF 0.027249
CLP 1068.972737
CNY 8.239114
CNH 8.235468
COP 4423.838268
CRC 572.550529
CUC 1.165091
CUP 30.874907
CVE 110.236695
CZK 24.215228
DJF 207.947498
DKK 7.468599
DOP 74.200629
DZD 151.573688
EGP 55.422094
ERN 17.476363
ETB 182.080866
FJD 2.631882
FKP 0.872491
GBP 0.87341
GEL 3.139877
GGP 0.872491
GHS 13.301585
GIP 0.872491
GMD 85.051785
GNF 10146.786517
GTQ 8.944742
GYD 244.307269
HKD 9.07004
HNL 30.745973
HRK 7.537941
HTG 152.955977
HUF 381.927241
IDR 19422.821609
ILS 3.76036
IMP 0.872491
INR 104.791181
IQD 1529.71378
IRR 49079.451231
ISK 149.003201
JEP 0.872491
JMD 187.141145
JOD 0.82607
JPY 180.711448
KES 150.704566
KGS 101.886647
KHR 4676.939601
KMF 491.66861
KPW 1048.573823
KRW 1715.887947
KWD 0.35759
KYD 0.973154
KZT 590.220982
LAK 25331.604319
LBP 104570.198293
LKR 360.448994
LRD 206.107962
LSL 19.822595
LTL 3.44021
LVL 0.704752
LYD 6.347397
MAD 10.774234
MDL 19.862985
MGA 5193.64414
MKD 61.624177
MMK 2446.620372
MNT 4131.997126
MOP 9.362236
MRU 46.266921
MUR 53.675364
MVR 17.954132
MWK 2024.871384
MXN 21.185039
MYR 4.789718
MZN 74.447687
NAD 19.822595
NGN 1690.547045
NIO 42.970442
NOK 11.774198
NPR 167.831186
NZD 2.017279
OMR 0.448002
PAB 1.1678
PEN 3.926892
PGK 4.952877
PHP 68.813177
PKR 329.883811
PLN 4.230421
PYG 8097.955442
QAR 4.268104
RON 5.093784
RSD 117.405001
RUB 89.428762
RWF 1699.056442
SAR 4.372624
SBD 9.581501
SCR 15.83572
SDG 700.739077
SEK 10.962357
SGD 1.508886
SHP 0.87412
SLE 26.796781
SLL 24431.370198
SOS 666.226074
SRD 45.023191
STD 24115.028075
STN 24.494657
SVC 10.21742
SYP 12883.858981
SZL 19.816827
THB 37.09708
TJS 10.731491
TMT 4.077818
TND 3.427635
TOP 2.805259
TRY 49.532165
TTD 7.917001
TWD 36.455959
TZS 2842.8212
UAH 49.235746
UGX 4139.936989
USD 1.165091
UYU 45.74845
UZS 13910.428222
VES 289.625154
VND 30711.794538
VUV 142.222766
WST 3.250779
XAF 655.7858
XAG 0.020016
XAU 0.000276
XCD 3.148716
XCG 2.104569
XDR 0.815587
XOF 655.791427
XPF 119.331742
YER 277.75676
ZAR 19.715959
ZMK 10487.212054
ZMW 26.828226
ZWL 375.158775
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

H.Nadeem--DT