Dubai Telegraph - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.221739
AFN 72.42195
ALL 96.020858
AMD 433.494163
ANG 2.057799
AOA 1054.141908
ARS 1605.37418
AUD 1.624033
AWG 2.072072
AZN 1.956718
BAM 1.956216
BBD 2.312592
BDT 140.889991
BGN 1.964944
BHD 0.433904
BIF 3409.199857
BMD 1.149555
BND 1.468745
BOB 7.962695
BRL 6.016654
BSD 1.148249
BTN 105.909466
BWP 15.656401
BYN 3.420428
BYR 22531.272227
BZD 2.309292
CAD 1.573321
CDF 2603.741289
CHF 0.90665
CLF 0.026491
CLP 1046.003057
CNY 7.99659
CNH 7.915788
COP 4258.536902
CRC 539.331228
CUC 1.149555
CUP 30.4632
CVE 110.288957
CZK 24.437268
DJF 204.464414
DKK 7.472795
DOP 70.087053
DZD 152.076946
EGP 60.260464
ERN 17.243321
ETB 180.867995
FJD 2.543332
FKP 0.867843
GBP 0.863807
GEL 3.12688
GGP 0.867843
GHS 12.497715
GIP 0.867843
GMD 84.489549
GNF 10066.449332
GTQ 8.800912
GYD 240.351163
HKD 9.004042
HNL 30.397528
HRK 7.533265
HTG 150.495309
HUF 390.848437
IDR 19524.037117
ILS 3.58941
IMP 0.867843
INR 106.148671
IQD 1504.120182
IRR 1518619.243421
ISK 143.200536
JEP 0.867843
JMD 180.619234
JOD 0.815036
JPY 183.193613
KES 148.69464
KGS 100.528364
KHR 4604.080197
KMF 493.158699
KPW 1034.599226
KRW 1715.158638
KWD 0.353016
KYD 0.956804
KZT 554.468029
LAK 24640.245163
LBP 102820.787438
LKR 357.546111
LRD 210.113813
LSL 19.316712
LTL 3.394336
LVL 0.695354
LYD 7.359599
MAD 10.787196
MDL 19.978253
MGA 4780.038316
MKD 61.633189
MMK 2413.653719
MNT 4105.387442
MOP 9.260171
MRU 45.779741
MUR 53.730046
MVR 17.772551
MWK 1990.632404
MXN 20.343842
MYR 4.509126
MZN 73.460046
NAD 19.316712
NGN 1577.429825
NIO 42.251199
NOK 11.124817
NPR 169.459969
NZD 1.966194
OMR 0.442006
PAB 1.148244
PEN 3.963544
PGK 4.951162
PHP 68.643361
PKR 320.749473
PLN 4.274562
PYG 7452.780967
QAR 4.197012
RON 5.093556
RSD 117.442229
RUB 93.405395
RWF 1675.764008
SAR 4.313987
SBD 9.255824
SCR 16.567608
SDG 690.882734
SEK 10.75655
SGD 1.469594
SHP 0.862464
SLE 28.282209
SLL 24105.59984
SOS 655.042288
SRD 43.19049
STD 23793.461461
STN 24.505963
SVC 10.047139
SYP 127.054517
SZL 19.302193
THB 37.302476
TJS 11.022598
TMT 4.029189
TND 3.391437
TOP 2.767851
TRY 50.805035
TTD 7.786658
TWD 36.654125
TZS 2994.5901
UAH 50.619496
UGX 4334.922774
USD 1.149555
UYU 46.679734
UZS 13882.955262
VES 512.984476
VND 30207.423772
VUV 137.446801
WST 3.144279
XAF 656.099517
XAG 0.01419
XAU 0.000229
XCD 3.106729
XCG 2.069341
XDR 0.815977
XOF 656.099517
XPF 119.331742
YER 274.175214
ZAR 19.190724
ZMK 10347.371931
ZMW 22.36076
ZWL 370.156146
  • AEX

    6.1100

    1007.8

    +0.61%

  • BEL20

    19.4200

    5128.99

    +0.38%

  • PX1

    24.5300

    7935.97

    +0.31%

  • ISEQ

    -60.7300

    12332.85

    -0.49%

  • OSEBX

    20.6300

    1966.63

    +1.06%

  • PSI20

    -13.7200

    9129.84

    -0.15%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    50.3600

    3780.46

    +1.35%

  • N150

    10.3900

    3858.76

    +0.27%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Murugan--DT