Dubai Telegraph - IA aprende a mentir, manipular e ameaçar seus criadores

EUR -
AED 4.28945
AFN 73.571842
ALL 95.234633
AMD 433.475814
ANG 2.09023
AOA 1072.041347
ARS 1624.391249
AUD 1.63948
AWG 2.104962
AZN 1.985679
BAM 1.951191
BBD 2.352842
BDT 143.331446
BGN 1.948012
BHD 0.440853
BIF 3475.37759
BMD 1.167802
BND 1.49167
BOB 8.071934
BRL 5.862249
BSD 1.168141
BTN 110.739429
BWP 15.789637
BYN 3.28933
BYR 22888.911546
BZD 2.349451
CAD 1.598171
CDF 2709.29965
CHF 0.923947
CLF 0.026847
CLP 1056.61498
CNY 7.984784
CNH 7.995079
COP 4246.173364
CRC 531.245179
CUC 1.167802
CUP 30.946743
CVE 110.238003
CZK 24.385326
DJF 207.542203
DKK 7.473761
DOP 69.192348
DZD 154.731664
EGP 61.902945
ERN 17.517024
ETB 183.782725
FJD 2.577453
FKP 0.864315
GBP 0.866456
GEL 3.147281
GGP 0.864315
GHS 13.009401
GIP 0.864315
GMD 85.836974
GNF 10250.380504
GTQ 8.924881
GYD 244.401668
HKD 9.151303
HNL 31.08704
HRK 7.532207
HTG 152.998612
HUF 365.531834
IDR 20288.217362
ILS 3.471232
IMP 0.864315
INR 110.84078
IQD 1529.820108
IRR 1536243.017503
ISK 143.803427
JEP 0.864315
JMD 183.177328
JOD 0.827996
JPY 187.244728
KES 150.771721
KGS 102.100071
KHR 4682.884489
KMF 491.64417
KPW 1050.982522
KRW 1739.416936
KWD 0.359648
KYD 0.973496
KZT 541.071968
LAK 25627.405944
LBP 104635.024073
LKR 373.228421
LRD 214.583882
LSL 19.309587
LTL 3.448215
LVL 0.706391
LYD 7.409667
MAD 10.809464
MDL 20.110412
MGA 4845.208656
MKD 61.610792
MMK 2452.359542
MNT 4179.42903
MOP 9.430026
MRU 46.711865
MUR 54.630429
MVR 18.042542
MWK 2033.142946
MXN 20.457169
MYR 4.615735
MZN 74.634209
NAD 19.32738
NGN 1603.543663
NIO 42.875791
NOK 10.88359
NPR 177.182729
NZD 2.003478
OMR 0.449007
PAB 1.168141
PEN 4.105967
PGK 5.073806
PHP 72.145608
PKR 325.495479
PLN 4.260432
PYG 7267.83311
QAR 4.254594
RON 5.101777
RSD 117.409615
RUB 87.268186
RWF 1705.574251
SAR 4.379685
SBD 9.3727
SCR 16.566391
SDG 701.272768
SEK 10.875182
SGD 1.495884
SHP 0.871882
SLE 28.757092
SLL 24488.211373
SOS 667.396854
SRD 43.746999
STD 24171.135535
STN 24.815784
SVC 10.221856
SYP 129.316627
SZL 19.32667
THB 38.282925
TJS 10.951585
TMT 4.093145
TND 3.367648
TOP 2.811786
TRY 52.631242
TTD 7.943238
TWD 36.957187
TZS 3030.445445
UAH 51.488383
UGX 4351.721074
USD 1.167802
UYU 46.490188
UZS 14095.365366
VES 565.93834
VND 30778.57922
VUV 138.235209
WST 3.171604
XAF 654.408461
XAG 0.016386
XAU 0.000257
XCD 3.156043
XCG 2.105327
XDR 0.814796
XOF 653.381544
XPF 119.331742
YER 278.695642
ZAR 19.627206
ZMK 10511.623057
ZMW 22.04892
ZWL 376.031642
IA aprende a mentir, manipular e ameaçar seus criadores
IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

H.Nadeem--DT