Dubai Telegraph - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.30878
AFN 75.088139
ALL 95.561304
AMD 435.019119
ANG 2.099991
AOA 1077.048119
ARS 1633.743618
AUD 1.628028
AWG 2.111859
AZN 1.992549
BAM 1.958981
BBD 2.363569
BDT 143.987894
BGN 1.957109
BHD 0.443079
BIF 3491.606608
BMD 1.173255
BND 1.496952
BOB 8.108753
BRL 5.813124
BSD 1.17352
BTN 111.32055
BWP 15.948049
BYN 3.311545
BYR 22995.796207
BZD 2.360153
CAD 1.594747
CDF 2721.951785
CHF 0.916036
CLF 0.026822
CLP 1055.636074
CNY 8.011278
CNH 7.99944
COP 4290.886514
CRC 533.520798
CUC 1.173255
CUP 31.091255
CVE 110.814062
CZK 24.36217
DJF 208.511097
DKK 7.472484
DOP 69.807476
DZD 155.414871
EGP 62.775014
ERN 17.598824
ETB 184.201363
FJD 2.570129
FKP 0.864241
GBP 0.863158
GEL 3.144316
GGP 0.864241
GHS 13.136436
GIP 0.864241
GMD 85.647414
GNF 10295.311947
GTQ 8.965435
GYD 245.506393
HKD 9.191291
HNL 31.231437
HRK 7.535932
HTG 153.725313
HUF 362.003077
IDR 20384.717408
ILS 3.45811
IMP 0.864241
INR 111.373802
IQD 1536.96393
IRR 1541656.949892
ISK 143.805466
JEP 0.864241
JMD 183.878547
JOD 0.831868
JPY 183.999313
KES 151.525537
KGS 102.56653
KHR 4707.687454
KMF 492.766707
KPW 1055.929389
KRW 1723.388282
KWD 0.361246
KYD 0.977959
KZT 543.555065
LAK 25788.142975
LBP 105064.976893
LKR 375.055706
LRD 215.732235
LSL 19.546108
LTL 3.464316
LVL 0.70969
LYD 7.450082
MAD 10.854074
MDL 20.219293
MGA 4869.007439
MKD 61.642351
MMK 2463.237101
MNT 4197.730703
MOP 9.46916
MRU 46.895281
MUR 54.861245
MVR 18.132674
MWK 2043.224376
MXN 20.452648
MYR 4.637894
MZN 74.955906
NAD 19.546663
NGN 1614.37562
NIO 43.070165
NOK 10.884579
NPR 178.104316
NZD 1.982771
OMR 0.451104
PAB 1.17349
PEN 4.11519
PGK 5.09046
PHP 72.119932
PKR 327.074167
PLN 4.246878
PYG 7217.425722
QAR 4.274757
RON 5.197052
RSD 117.321989
RUB 87.993368
RWF 1714.712049
SAR 4.399682
SBD 9.435445
SCR 17.459933
SDG 704.550818
SEK 10.811603
SGD 1.493199
SHP 0.875953
SLE 28.864339
SLL 24602.564306
SOS 669.928799
SRD 43.947762
STD 24284.007814
STN 24.884737
SVC 10.268679
SYP 129.673977
SZL 19.545913
THB 38.048375
TJS 11.007269
TMT 4.112258
TND 3.381027
TOP 2.824916
TRY 53.025844
TTD 7.96568
TWD 37.070747
TZS 3062.195542
UAH 51.563774
UGX 4412.59685
USD 1.173255
UYU 46.800573
UZS 14020.396174
VES 573.654487
VND 30901.774408
VUV 138.035069
WST 3.185609
XAF 657.071431
XAG 0.015654
XAU 0.000256
XCD 3.17078
XCG 2.114968
XDR 0.816151
XOF 657.022504
XPF 119.331742
YER 279.952314
ZAR 19.463185
ZMK 10560.703776
ZMW 21.915169
ZWL 377.787602
  • AEX

    0.1000

    1014.24

    +0.01%

  • BEL20

    72.8600

    5352.67

    +1.38%

  • PX1

    -5.6800

    8109.01

    -0.07%

  • ISEQ

    167.7500

    12593.36

    +1.35%

  • OSEBX

    4.6400

    2023.18

    +0.23%

  • PSI20

    -7.4800

    9337.35

    -0.08%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    71.6400

    3902.45

    +1.87%

  • N150

    12.8800

    4167.47

    +0.31%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Murugan--DT