Dubai Telegraph - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.208869
AFN 72.772181
ALL 93.574933
AMD 421.986946
ANG 2.051891
AOA 1051.504407
ARS 1646.572787
AUD 1.633422
AWG 2.06289
AZN 1.947306
BAM 1.931298
BBD 2.309401
BDT 140.755456
BGN 1.937834
BHD 0.43218
BIF 3427.83555
BMD 1.14605
BND 1.468963
BOB 7.952111
BRL 5.834312
BSD 1.146652
BTN 108.37109
BWP 15.364075
BYN 3.174525
BYR 22462.58
BZD 2.306142
CAD 1.619575
CDF 2658.836139
CHF 0.921699
CLF 0.025793
CLP 1015.125101
CNY 7.744376
CNH 7.767445
COP 3936.68175
CRC 522.273882
CUC 1.14605
CUP 30.370325
CVE 109.275957
CZK 23.840189
DJF 203.675853
DKK 7.376139
DOP 67.158465
DZD 152.285947
EGP 57.197289
ERN 17.19075
ETB 181.505693
FJD 2.559932
FKP 0.855486
GBP 0.867845
GEL 3.031301
GGP 0.855486
GHS 12.947729
GIP 0.855486
GMD 83.661288
GNF 10059.452747
GTQ 8.740189
GYD 239.856922
HKD 8.982178
HNL 30.596323
HRK 7.534016
HTG 149.750112
HUF 344.559522
IDR 20340.78303
ILS 3.371777
IMP 0.855486
INR 108.0834
IQD 1501.3255
IRR 1575818.749934
ISK 142.488432
JEP 0.855486
JMD 181.349212
JOD 0.812571
JPY 183.66941
KES 148.4366
KGS 100.221799
KHR 4598.517677
KMF 487.071034
KPW 1031.445401
KRW 1732.67288
KWD 0.353096
KYD 0.955577
KZT 559.180763
LAK 25247.481275
LBP 102628.777562
LKR 384.13975
LRD 208.752813
LSL 18.560117
LTL 3.383988
LVL 0.693234
LYD 7.306091
MAD 10.595252
MDL 20.009143
MGA 4813.409941
MKD 60.839941
MMK 2406.642874
MNT 4102.150917
MOP 9.251427
MRU 45.933736
MUR 54.013612
MVR 17.718213
MWK 1989.543095
MXN 19.886592
MYR 4.658469
MZN 73.235007
NAD 18.568207
NGN 1557.619076
NIO 41.957005
NOK 11.154769
NPR 173.392645
NZD 1.990655
OMR 0.440654
PAB 1.146652
PEN 3.910908
PGK 5.028581
PHP 69.190487
PKR 318.943637
PLN 4.180412
PYG 6997.225808
QAR 4.172198
RON 5.165289
RSD 115.832482
RUB 83.629041
RWF 1705.3224
SAR 4.299858
SBD 9.238795
SCR 16.176637
SDG 688.20225
SEK 10.983898
SGD 1.46927
SHP 0.855642
SLE 28.365071
SLL 24032.099675
SOS 654.976201
SRD 42.784369
STD 23720.921134
STN 24.52547
SVC 10.032801
SYP 126.675311
SZL 18.562435
THB 37.286165
TJS 10.629345
TMT 4.022636
TND 3.337012
TOP 2.759414
TRY 53.226231
TTD 7.789178
TWD 36.167621
TZS 3008.384654
UAH 51.353227
UGX 4242.179236
USD 1.14605
UYU 46.293081
UZS 13758.330087
VES 683.087513
VND 30170.9123
VUV 136.36723
WST 3.139892
XAF 647.739098
XAG 0.017417
XAU 0.000272
XCD 3.097258
XCG 2.066563
XDR 0.806472
XOF 647.518455
XPF 119.331742
YER 273.47621
ZAR 18.837016
ZMK 10315.825787
ZMW 20.266873
ZWL 369.027632
  • AEX

    -1.3000

    1081.41

    -0.12%

  • BEL20

    -54.7500

    5648.88

    -0.96%

  • PX1

    37.1000

    8467.98

    +0.44%

  • ISEQ

    48.0800

    13786.23

    +0.35%

  • OSEBX

    -24.4000

    1927.39

    -1.25%

  • PSI20

    -50.0000

    9040.4

    -0.55%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -88.3500

    4200.66

    -2.06%

  • N150

    -44.0500

    4232.51

    -1.03%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Murugan--DT