L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Dubai Telegraph - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Dubai 33°C

AED 4.208869

AFN 72.772181

ALL 93.574933

AMD 421.986946

ANG 2.051891

AOA 1051.504407

ARS 1646.572787

AUD 1.633422

AWG 2.06289

AZN 1.947306

BAM 1.931298

BBD 2.309401

BDT 140.755456

BGN 1.937834

BHD 0.43218

BIF 3427.83555

BMD 1.14605

BND 1.468963

BOB 7.952111

BRL 5.834312

BSD 1.146652

BTN 108.37109

BWP 15.364075

BYN 3.174525

BYR 22462.58

BZD 2.306142

CAD 1.619575

CDF 2658.836139

CHF 0.921699

CLF 0.025793

CLP 1015.125101

CNY 7.744376

CNH 7.767445

COP 3936.68175

CRC 522.273882

CUC 1.14605

CUP 30.370325

CVE 109.275957

CZK 23.840189

DJF 203.675853

DKK 7.376139

DOP 67.158465

DZD 152.285947

EGP 57.197289

ERN 17.19075

ETB 181.505693

FJD 2.559932

FKP 0.855486

GBP 0.867845

GEL 3.031301

GGP 0.855486

GHS 12.947729

GIP 0.855486

GMD 83.661288

GNF 10059.452747

GTQ 8.740189

GYD 239.856922

HKD 8.982178

HNL 30.596323

HRK 7.534016

HTG 149.750112

HUF 344.559522

IDR 20340.78303

ILS 3.371777

IMP 0.855486

INR 108.0834

IQD 1501.3255

IRR 1575818.749934

ISK 142.488432

JEP 0.855486

JMD 181.349212

JOD 0.812571

JPY 183.66941

KES 148.4366

KGS 100.221799

KHR 4598.517677

KMF 487.071034

KPW 1031.445401

KRW 1732.67288

KWD 0.353096

KYD 0.955577

KZT 559.180763

LAK 25247.481275

LBP 102628.777562

LKR 384.13975

LRD 208.752813

LSL 18.560117

LTL 3.383988

LVL 0.693234

LYD 7.306091

MAD 10.595252

MDL 20.009143

MGA 4813.409941

MKD 60.839941

MMK 2406.642874

MNT 4102.150917

MOP 9.251427

MRU 45.933736

MUR 54.013612

MVR 17.718213

MWK 1989.543095

MXN 19.886592

MYR 4.658469

MZN 73.235007

NAD 18.568207

NGN 1557.619076

NIO 41.957005

NOK 11.154769

NPR 173.392645

NZD 1.990655

OMR 0.440654

PAB 1.146652

PEN 3.910908

PGK 5.028581

PHP 69.190487

PKR 318.943637

PLN 4.180412

PYG 6997.225808

QAR 4.172198

RON 5.165289

RSD 115.832482

RUB 83.629041

RWF 1705.3224

SAR 4.299858

SBD 9.238795

SCR 16.176637

SDG 688.20225

SEK 10.983898

SGD 1.46927

SHP 0.855642

SLE 28.365071

SLL 24032.099675

SOS 654.976201

SRD 42.784369

STD 23720.921134

STN 24.52547

SVC 10.032801

SYP 126.675311

SZL 18.562435

THB 37.286165

TJS 10.629345

TMT 4.022636

TND 3.337012

TOP 2.759414

TRY 53.226231

TTD 7.789178

TWD 36.167621

TZS 3008.384654

UAH 51.353227

UGX 4242.179236

USD 1.14605

UYU 46.293081

UZS 13758.330087

VES 683.087513

VND 30170.9123

VUV 136.36723

WST 3.139892

XAF 647.739098

XAG 0.017417

XAU 0.000272

XCD 3.097258

XCG 2.066563

XDR 0.806472

XOF 647.518455

XPF 119.331742

YER 273.47621

ZAR 18.837016

ZMK 10315.825787

ZMW 20.266873

ZWL 369.027632

AEX

-1.3000

1081.41

-0.12%
BEL20

-54.7500

5648.88

-0.96%
PX1

37.1000

8467.98

+0.44%
ISEQ

48.0800

13786.23

+0.35%
OSEBX

-24.4000

1927.39

-1.25%
PSI20

-50.0000

9040.4

-0.55%
ENTEC

-5.8300

1416.23

-0.41%
BIOTK

-88.3500

4200.66

-2.06%
N150

-44.0500

4232.51

-1.03%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

CULTURE 29.06.2025

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Murugan--DT

Dubai Telegraph - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

En vedette

TF1 se déploie sur Netflix et met l'accent sur les fictions

La canicule s'installe, avec des nuits "tropicales"

Les Emirats arabes unis interdisent à leur tour les réseaux sociaux aux moins de 15 ans

Patchs cutanés dopés à l'IA, détecteur de fausses voix... Les innovations surprenantes de VivaTech 2026