Dubai Telegraph - La IA aprende a mentir, manipular y amenazar a sus creadores

EUR -
AED 4.194308
AFN 72.52041
ALL 93.251191
AMD 420.526993
ANG 2.044792
AOA 1047.866508
ARS 1640.876124
AUD 1.632903
AWG 2.055753
AZN 1.940568
BAM 1.924616
BBD 2.301411
BDT 140.268483
BGN 1.931129
BHD 0.430685
BIF 3415.976235
BMD 1.142085
BND 1.463881
BOB 7.924599
BRL 5.814127
BSD 1.142685
BTN 107.996157
BWP 15.31092
BYN 3.163542
BYR 22384.866
BZD 2.298163
CAD 1.616804
CDF 2649.637338
CHF 0.923553
CLF 0.025703
CLP 1011.613063
CNY 7.717583
CNH 7.762335
COP 3923.061975
CRC 520.466966
CUC 1.142085
CUP 30.265253
CVE 108.897894
CZK 23.757709
DJF 202.971194
DKK 7.350619
DOP 66.926117
DZD 151.759082
EGP 56.999403
ERN 17.131275
ETB 180.877736
FJD 2.551076
FKP 0.852527
GBP 0.866828
GEL 3.020814
GGP 0.852527
GHS 12.902933
GIP 0.852527
GMD 83.371845
GNF 10024.649964
GTQ 8.70995
GYD 239.027087
HKD 8.951674
HNL 30.490468
HRK 7.533873
HTG 149.23202
HUF 343.367446
IDR 20270.409831
ILS 3.373828
IMP 0.852527
INR 107.709463
IQD 1496.13135
IRR 1570366.874934
ISK 141.995464
JEP 0.852527
JMD 180.721797
JOD 0.80976
JPY 183.033967
KES 147.923053
KGS 99.875061
KHR 4582.608142
KMF 485.38591
KPW 1027.8769
KRW 1726.678335
KWD 0.351874
KYD 0.952271
KZT 557.24616
LAK 25160.132326
LBP 102273.711812
LKR 382.810738
LRD 208.030589
LSL 18.495904
LTL 3.37228
LVL 0.690836
LYD 7.280814
MAD 10.558596
MDL 19.939917
MGA 4796.756942
MKD 60.629453
MMK 2398.316589
MNT 4087.958667
MOP 9.219419
MRU 45.774818
MUR 53.826741
MVR 17.656913
MWK 1982.659854
MXN 19.87116
MYR 4.642352
MZN 72.981636
NAD 18.503966
NGN 1552.230167
NIO 41.811846
NOK 11.158684
NPR 172.792757
NZD 1.994455
OMR 0.43913
PAB 1.142685
PEN 3.897377
PGK 5.011184
PHP 68.951108
PKR 317.840185
PLN 4.165949
PYG 6973.017439
QAR 4.157763
RON 5.147419
RSD 115.431735
RUB 83.339709
RWF 1699.42248
SAR 4.284982
SBD 9.206832
SCR 16.12067
SDG 685.82127
SEK 10.995541
SGD 1.464187
SHP 0.852682
SLE 28.266937
SLL 23948.955593
SOS 652.710174
SRD 42.636347
STD 23638.85364
STN 24.440619
SVC 9.99809
SYP 126.237051
SZL 18.498214
THB 37.157165
TJS 10.59257
TMT 4.008718
TND 3.325466
TOP 2.749867
TRY 53.042608
TTD 7.76223
TWD 36.042492
TZS 2997.976517
UAH 51.17556
UGX 4227.502529
USD 1.142085
UYU 46.13292
UZS 13710.730262
VES 680.724228
VND 30066.52971
VUV 135.895439
WST 3.129029
XAF 645.498109
XAG 0.017975
XAU 0.000276
XCD 3.086542
XCG 2.059414
XDR 0.803682
XOF 645.27823
XPF 119.331742
YER 272.530062
ZAR 18.866359
ZMK 10280.138245
ZMW 20.196756
ZWL 367.750904
La IA aprende a mentir, manipular y amenazar a sus creadores
La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

A.Ansari--DT