Dubai Telegraph - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.400314
AFN 77.881147
ALL 96.814682
AMD 454.172547
ANG 2.144834
AOA 1098.729057
ARS 1730.745379
AUD 1.690809
AWG 2.158218
AZN 2.042821
BAM 1.959124
BBD 2.414607
BDT 146.498583
BGN 2.012185
BHD 0.451686
BIF 3551.270346
BMD 1.198178
BND 1.512786
BOB 8.284057
BRL 6.227767
BSD 1.198839
BTN 110.119313
BWP 15.686617
BYN 3.408698
BYR 23484.290754
BZD 2.411101
CAD 1.620506
CDF 2683.918435
CHF 0.917625
CLF 0.026186
CLP 1033.955485
CNY 8.33291
CNH 8.319544
COP 4397.74497
CRC 595.019577
CUC 1.198178
CUP 31.75172
CVE 110.45288
CZK 24.298095
DJF 213.48135
DKK 7.46704
DOP 75.429249
DZD 154.714803
EGP 56.109364
ERN 17.972671
ETB 186.414713
FJD 2.618439
FKP 0.869432
GBP 0.866031
GEL 3.229063
GGP 0.869432
GHS 13.103234
GIP 0.869432
GMD 87.466656
GNF 10519.982279
GTQ 9.197645
GYD 250.81559
HKD 9.348245
HNL 31.637684
HRK 7.534031
HTG 156.996396
HUF 379.901498
IDR 20117.410294
ILS 3.70231
IMP 0.869432
INR 110.191403
IQD 1570.47137
IRR 50473.252638
ISK 144.787493
JEP 0.869432
JMD 187.928883
JOD 0.849516
JPY 183.431525
KES 154.589225
KGS 104.78044
KHR 4819.23774
KMF 493.649685
KPW 1078.290613
KRW 1708.440222
KWD 0.367097
KYD 0.999099
KZT 604.037467
LAK 25827.933287
LBP 107356.012463
LKR 371.221447
LRD 221.78726
LSL 19.062325
LTL 3.537908
LVL 0.724766
LYD 7.528744
MAD 10.839493
MDL 20.104197
MGA 5349.076452
MKD 61.600431
MMK 2516.151613
MNT 4280.660921
MOP 9.634588
MRU 47.858006
MUR 54.097074
MVR 18.523892
MWK 2078.827408
MXN 20.521616
MYR 4.695675
MZN 76.395464
NAD 19.062325
NGN 1673.830778
NIO 44.115408
NOK 11.440744
NPR 176.1907
NZD 1.969217
OMR 0.460694
PAB 1.198834
PEN 4.011306
PGK 5.131772
PHP 70.569096
PKR 335.375273
PLN 4.204707
PYG 8050.626917
QAR 4.358915
RON 5.095247
RSD 117.400304
RUB 91.721686
RWF 1749.067864
SAR 4.49358
SBD 9.678495
SCR 17.176644
SDG 720.702641
SEK 10.541367
SGD 1.511975
SHP 0.898944
SLE 29.118971
SLL 25125.194783
SOS 683.960562
SRD 45.640962
STD 24799.867551
STN 24.541951
SVC 10.489843
SYP 13251.340431
SZL 19.054412
THB 37.190847
TJS 11.203157
TMT 4.193623
TND 3.428532
TOP 2.884925
TRY 52.020807
TTD 8.136841
TWD 37.52634
TZS 3043.372756
UAH 51.245655
UGX 4292.283258
USD 1.198178
UYU 45.36717
UZS 14504.672432
VES 429.518272
VND 31224.521278
VUV 143.387393
WST 3.265465
XAF 657.071937
XAG 0.010054
XAU 0.000214
XCD 3.238136
XCG 2.160575
XDR 0.817187
XOF 657.06919
XPF 119.331742
YER 285.649307
ZAR 18.761325
ZMK 10785.036009
ZMW 23.826529
ZWL 385.812859
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

H.Nadeem--DT