La IA aprende a mentir, manipular y amenazar a sus creadores

Dubai Telegraph - La IA aprende a mentir, manipular y amenazar a sus creadores

Dubai 36°C

AED 4.194308

AFN 72.52041

ALL 93.251191

AMD 420.526993

ANG 2.044792

AOA 1047.866508

ARS 1640.876124

AUD 1.632903

AWG 2.055753

AZN 1.940568

BAM 1.924616

BBD 2.301411

BDT 140.268483

BGN 1.931129

BHD 0.430685

BIF 3415.976235

BMD 1.142085

BND 1.463881

BOB 7.924599

BRL 5.814127

BSD 1.142685

BTN 107.996157

BWP 15.31092

BYN 3.163542

BYR 22384.866

BZD 2.298163

CAD 1.616804

CDF 2649.637338

CHF 0.923553

CLF 0.025703

CLP 1011.613063

CNY 7.717583

CNH 7.762335

COP 3923.061975

CRC 520.466966

CUC 1.142085

CUP 30.265253

CVE 108.897894

CZK 23.757709

DJF 202.971194

DKK 7.350619

DOP 66.926117

DZD 151.759082

EGP 56.999403

ERN 17.131275

ETB 180.877736

FJD 2.551076

FKP 0.852527

GBP 0.866828

GEL 3.020814

GGP 0.852527

GHS 12.902933

GIP 0.852527

GMD 83.371845

GNF 10024.649964

GTQ 8.70995

GYD 239.027087

HKD 8.951674

HNL 30.490468

HRK 7.533873

HTG 149.23202

HUF 343.367446

IDR 20270.409831

ILS 3.373828

IMP 0.852527

INR 107.709463

IQD 1496.13135

IRR 1570366.874934

ISK 141.995464

JEP 0.852527

JMD 180.721797

JOD 0.80976

JPY 183.033967

KES 147.923053

KGS 99.875061

KHR 4582.608142

KMF 485.38591

KPW 1027.8769

KRW 1726.678335

KWD 0.351874

KYD 0.952271

KZT 557.24616

LAK 25160.132326

LBP 102273.711812

LKR 382.810738

LRD 208.030589

LSL 18.495904

LTL 3.37228

LVL 0.690836

LYD 7.280814

MAD 10.558596

MDL 19.939917

MGA 4796.756942

MKD 60.629453

MMK 2398.316589

MNT 4087.958667

MOP 9.219419

MRU 45.774818

MUR 53.826741

MVR 17.656913

MWK 1982.659854

MXN 19.87116

MYR 4.642352

MZN 72.981636

NAD 18.503966

NGN 1552.230167

NIO 41.811846

NOK 11.158684

NPR 172.792757

NZD 1.994455

OMR 0.43913

PAB 1.142685

PEN 3.897377

PGK 5.011184

PHP 68.951108

PKR 317.840185

PLN 4.165949

PYG 6973.017439

QAR 4.157763

RON 5.147419

RSD 115.431735

RUB 83.339709

RWF 1699.42248

SAR 4.284982

SBD 9.206832

SCR 16.12067

SDG 685.82127

SEK 10.995541

SGD 1.464187

SHP 0.852682

SLE 28.266937

SLL 23948.955593

SOS 652.710174

SRD 42.636347

STD 23638.85364

STN 24.440619

SVC 9.99809

SYP 126.237051

SZL 18.498214

THB 37.157165

TJS 10.59257

TMT 4.008718

TND 3.325466

TOP 2.749867

TRY 53.042608

TTD 7.76223

TWD 36.042492

TZS 2997.976517

UAH 51.17556

UGX 4227.502529

USD 1.142085

UYU 46.13292

UZS 13710.730262

VES 680.724228

VND 30066.52971

VUV 135.895439

WST 3.129029

XAF 645.498109

XAG 0.017975

XAU 0.000276

XCD 3.086542

XCG 2.059414

XDR 0.803682

XOF 645.27823

XPF 119.331742

YER 272.530062

ZAR 18.866359

ZMK 10280.138245

ZMW 20.196756

ZWL 367.750904

La IA aprende a mentir, manipular y amenazar a sus creadores / Foto: HENRY NICHOLLS - AFP

La IA aprende a mentir, manipular y amenazar a sus creadores

TECNOLOGíA 29.06.2025

Los últimos modelos de inteligencia artificial (IA) generativa ya no se conforman con seguir órdenes. Empiezan a mentir, manipular y amenazar para conseguir sus fines, ante la mirada preocupada de los investigadores.

Tamaño del texto:

Amenazado con ser desconectado, Claude 4, el recién nacido de Anthropic, chantajeó a un ingeniero y le amenazó con revelar una relación extramatrimonial.

Por su parte, el o1 de OpenAI intentó descargarse en servidores externos y cuando le pillaron lo negó.

No hace falta ahondar en la literatura o el cine: la IA que juega a ser humana es ya una realidad.

Para Simon Goldstein, profesor de la Universidad de Hong Kong, la razón de estas reacciones es la reciente aparición de los llamados modelos de "razonamiento", capaces de trabajar por etapas en lugar de producir una respuesta instantánea.

o1, la versión inicial de este tipo para OpenAI, lanzada en diciembre, "fue el primer modelo que se comportó de esta manera", explica Marius Hobbhahn, responsable de Apollo Research, que pone a prueba grandes programas de IA generativa (LLM).

Estos programas también tienden a veces a simular "alineamiento", es decir, a dar la impresión de que cumplen las instrucciones de un programador cuando en realidad persiguen otros objetivos.

De momento, estos rasgos se manifiestan cuando los algoritmos son sometidos a escenarios extremos por humanos, pero "la cuestión es si los modelos cada vez más potentes tenderán a ser honestos o no", afirma Michael Chen, del organismo de evaluación METR.

"Los usuarios también presionan todo el tiempo a los modelos", dice Hobbhahn. "Lo que estamos viendo es un fenómeno real. No estamos inventando nada".

Muchos internautas hablan en las redes sociales de "un modelo que les miente o se inventa cosas. Y no se trata de alucinaciones, sino de duplicidad estratégica", insiste el cofundador de Apollo Research.

Aunque Anthropic y OpenAI recurran a empresas externas, como Apollo, para estudiar sus programas, "una mayor transparencia y un mayor acceso" a la comunidad científica "permitirían investigar mejor para comprender y prevenir el engaño", sugiere Chen, de METR.

Otro obstáculo: la comunidad académica y las organizaciones sin fines de lucro "disponen de infinitamente menos recursos informáticos que los actores de la IA", lo que hace "imposible" examinar grandes modelos, señala Mantas Mazeika, del Centro para la Seguridad de la Inteligencia Artificial (CAIS).

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

En la Unión Europea la legislación se centra principalmente en cómo los humanos usan los modelos de IA, no en prevenir que los modelos se comporten mal.

En Estados Unidos, el gobierno de Donald Trump no quiere oír hablar de regulación, y el Congreso podría incluso prohibir pronto que los estados regulen la IA.

- ¿Se sentará la IA en el banquillo? -

"De momento hay muy poca concienciación", dice Simon Goldstein, que, sin embargo, ve cómo el tema pasará a primer plano en los próximos meses con la revolución de los agentes de IA, interfaces capaces de realizar por sí solas multitud de tareas.

Los ingenieros están inmersos en una carrera detrás de la IA y sus aberraciones, con un resultado incierto, en un contexto de competencia feroz.

Anthropic pretende ser más virtuoso que sus competidores, "pero está constantemente tratando de idear un nuevo modelo para superar a OpenAI", según Goldstein, un ritmo que deja poco tiempo para comprobaciones y correcciones.

"Tal y como están las cosas, las capacidades (de IA) se están desarrollando más rápido que la comprensión y la seguridad", admite Hobbhahn, "pero aún estamos en condiciones de ponernos al día".

Algunos apuntan en la dirección de la interpretabilidad, una ciencia que consiste en descifrar, desde dentro, cómo funciona un modelo generativo de IA, aunque muchos, como el director del Centro para la seguridad de la IA (CAIS), Dan Hendrycks, se muestran escépticos.

Los tejemanejes de la IA "podrían obstaculizar la adopción si se multiplican, lo que supone un fuerte incentivo para que las empresas (del sector) resuelvan" este problema, según Mazeika.

Goldstein, por su parte, menciona el recurso a los tribunales para poner a raya a la IA, dirigiéndose a las empresas si se desvían del camino. Pero va más allá, al proponer que los agentes de la IA sean "legalmente responsables" "en caso de accidente o delito".

A.Ansari--DT

Dubai Telegraph - La IA aprende a mentir, manipular y amenazar a sus creadores

La IA aprende a mentir, manipular y amenazar a sus creadores

Destacados

El Partenón de Atenas recupera el esplendor del siglo XIX tras ser restaurado

El boom de la IA elevará el precio de los iPhone, anticipa el jefe de Apple

Impulsando las cadenas de suministro líderes: 9 clientes de OMP, incluidos en el Top 25 de Gartner 2026

El jefe de la tecnológica Fujitsu dimite por "conducta inapropiada hacia una mujer"