Dubai Telegraph - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.211393
AFN 72.244796
ALL 95.982096
AMD 432.319357
ANG 2.052753
AOA 1051.557417
ARS 1603.424201
AUD 1.641243
AWG 2.064125
AZN 1.954004
BAM 1.955435
BBD 2.309469
BDT 140.703754
BGN 1.960126
BHD 0.435819
BIF 3404.065016
BMD 1.146736
BND 1.467326
BOB 7.923522
BRL 6.112796
BSD 1.146686
BTN 105.842257
BWP 15.625085
BYN 3.392867
BYR 22476.027392
BZD 2.30607
CAD 1.583471
CDF 2588.183773
CHF 0.912745
CLF 0.026638
CLP 1051.798264
CNY 7.908585
CNH 7.921286
COP 4222.512346
CRC 539.499363
CUC 1.146736
CUP 30.388506
CVE 110.244435
CZK 24.575006
DJF 204.191911
DKK 7.505507
DOP 70.446859
DZD 153.116438
EGP 59.873831
ERN 17.201041
ETB 178.984913
FJD 2.555735
FKP 0.866182
GBP 0.866311
GEL 3.131037
GGP 0.866182
GHS 12.452677
GIP 0.866182
GMD 84.289519
GNF 10052.124908
GTQ 8.79336
GYD 239.895251
HKD 8.97946
HNL 30.352338
HRK 7.568004
HTG 150.351954
HUF 394.179508
IDR 19448.701448
ILS 3.605729
IMP 0.866182
INR 106.170389
IQD 1502.119799
IRR 1515669.760861
ISK 144.837141
JEP 0.866182
JMD 179.916439
JOD 0.813081
JPY 183.185402
KES 148.312334
KGS 100.281732
KHR 4598.142277
KMF 494.243657
KPW 1032.019272
KRW 1723.258101
KWD 0.352542
KYD 0.955522
KZT 561.355287
LAK 24570.416711
LBP 102681.246162
LKR 356.863432
LRD 209.830859
LSL 19.258608
LTL 3.386014
LVL 0.69365
LYD 7.316635
MAD 10.799685
MDL 20.003269
MGA 4761.111877
MKD 61.628504
MMK 2408.293814
MNT 4109.908675
MOP 9.243576
MRU 45.877442
MUR 53.33513
MVR 17.717506
MWK 1988.229122
MXN 20.584147
MYR 4.516425
MZN 73.288336
NAD 19.258608
NGN 1588.807126
NIO 42.19213
NOK 11.176343
NPR 169.34741
NZD 1.985003
OMR 0.440925
PAB 1.146586
PEN 3.954262
PGK 5.014065
PHP 68.334433
PKR 320.169477
PLN 4.298483
PYG 7397.620071
QAR 4.168222
RON 5.117429
RSD 117.34811
RUB 91.632507
RWF 1673.28787
SAR 4.303626
SBD 9.233195
SCR 17.507734
SDG 689.18878
SEK 10.871865
SGD 1.469547
SHP 0.860349
SLE 28.152796
SLL 24046.494883
SOS 654.177972
SRD 43.05769
STD 23735.121842
STN 24.495431
SVC 10.033128
SYP 126.777699
SZL 19.252409
THB 37.071728
TJS 10.99055
TMT 4.013576
TND 3.391067
TOP 2.761065
TRY 50.645643
TTD 7.776549
TWD 36.918714
TZS 2986.942825
UAH 50.565468
UGX 4311.195803
USD 1.146736
UYU 46.061408
UZS 13845.417319
VES 507.665371
VND 30152.278788
VUV 137.132233
WST 3.13652
XAF 655.834663
XAG 0.014239
XAU 0.000228
XCD 3.099112
XCG 2.066515
XDR 0.815648
XOF 655.834663
XPF 119.331742
YER 273.554311
ZAR 19.360243
ZMK 10322.005017
ZMW 22.318837
ZWL 369.248554
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

H.Nadeem--DT