Dubai Telegraph - L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

EUR -
AED 4.277193
AFN 76.278264
ALL 96.384702
AMD 444.254789
ANG 2.084488
AOA 1067.831058
ARS 1669.875407
AUD 1.753964
AWG 2.096069
AZN 1.984244
BAM 1.954822
BBD 2.344528
BDT 142.396172
BGN 1.956308
BHD 0.43899
BIF 3455.020152
BMD 1.164483
BND 1.507939
BOB 8.043943
BRL 6.350744
BSD 1.164018
BTN 104.659215
BWP 15.4652
BYN 3.346626
BYR 22823.860795
BZD 2.341119
CAD 1.610404
CDF 2599.125794
CHF 0.936598
CLF 0.027365
CLP 1073.513766
CNY 8.233014
CNH 8.233056
COP 4469.284578
CRC 568.61566
CUC 1.164483
CUP 30.858791
CVE 110.746839
CZK 24.199353
DJF 206.952322
DKK 7.46926
DOP 74.818471
DZD 151.338451
EGP 55.403297
ERN 17.46724
ETB 180.669946
FJD 2.633482
FKP 0.872036
GBP 0.873351
GEL 3.138328
GGP 0.872036
GHS 13.333781
GIP 0.872036
GMD 85.007651
GNF 10116.447882
GTQ 8.916541
GYD 243.537172
HKD 9.064392
HNL 30.603057
HRK 7.536071
HTG 152.3838
HUF 382.208885
IDR 19434.051674
ILS 3.767929
IMP 0.872036
INR 104.754244
IQD 1525.472329
IRR 49039.28188
ISK 148.99601
JEP 0.872036
JMD 186.316831
JOD 0.825664
JPY 180.860511
KES 150.572039
KGS 101.834459
KHR 4663.753596
KMF 491.412105
KPW 1048.026495
KRW 1715.92392
KWD 0.357438
KYD 0.970111
KZT 588.683098
LAK 25257.630031
LBP 104279.425622
LKR 359.050455
LRD 206.001381
LSL 19.738426
LTL 3.438415
LVL 0.704384
LYD 6.346874
MAD 10.755749
MDL 19.806011
MGA 5225.03425
MKD 61.609192
MMK 2445.343302
MNT 4129.840334
MOP 9.334532
MRU 46.416721
MUR 53.687009
MVR 17.937387
MWK 2022.70684
MXN 21.166896
MYR 4.787234
MZN 74.422528
NAD 19.738421
NGN 1688.744886
NIO 42.823896
NOK 11.76959
NPR 167.455263
NZD 2.016541
OMR 0.44774
PAB 1.164113
PEN 4.096072
PGK 4.876276
PHP 68.663144
PKR 326.49188
PLN 4.230857
PYG 8005.996555
QAR 4.23994
RON 5.091938
RSD 117.397367
RUB 89.084898
RWF 1689.664388
SAR 4.370504
SBD 9.584382
SCR 16.274091
SDG 700.440621
SEK 10.950883
SGD 1.508844
SHP 0.873664
SLE 27.60251
SLL 24418.617678
SOS 665.506124
SRD 44.982846
STD 24102.440677
STN 24.91993
SVC 10.184289
SYP 12877.133952
SZL 19.738411
THB 37.112493
TJS 10.680213
TMT 4.087334
TND 3.43668
TOP 2.803795
TRY 49.521868
TTD 7.891054
TWD 36.42677
TZS 2835.515749
UAH 48.861004
UGX 4117.9408
USD 1.164483
UYU 45.527234
UZS 13979.615126
VES 296.421323
VND 30695.763805
VUV 142.148529
WST 3.249082
XAF 655.626335
XAG 0.019932
XAU 0.000277
XCD 3.147073
XCG 2.097942
XDR 0.815161
XOF 655.025699
XPF 119.331742
YER 277.787769
ZAR 19.724129
ZMK 10481.745796
ZMW 26.912427
ZWL 374.962952
  • AEX

    -0.2800

    947.5

    -0.03%

  • BEL20

    16.5400

    5029.74

    +0.33%

  • PX1

    -7.3100

    8114.74

    -0.09%

  • ISEQ

    -5.1000

    12741.69

    -0.04%

  • OSEBX

    7.1500

    1632.45

    +0.44%

  • PSI20

    -40.3700

    8198.25

    -0.49%

  • ENTEC

    -5.8300

    1416.23

    -0.41%

  • BIOTK

    -87.0000

    4263

    -2%

  • N150

    13.5900

    3685.24

    +0.37%

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent
L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent / Photo: HENRY NICHOLLS - AFP/Archives

L'IA devient menteuse et manipulatrice, les chercheurs s'inquiètent

Les derniers modèles d'intelligence artificielle (IA) générative ne se contentent plus de suivre les ordres et vont jusqu'à mentir, manigancer ou menacer pour parvenir à leurs fins, sous le regard inquiet des chercheurs.

Taille du texte:

Menacé d'être débranché, Claude 4, le nouveau-né d'Anthropic, fait du chantage à un ingénieur et menace de révéler une liaison extra-conjugale. L'o1 d'OpenAI essaye lui de se télécharger sur des serveurs extérieurs et nie lorsqu'on le prend la main dans le sac.

Pas besoin d'aller fouiller dans la littérature ou le cinéma, l'IA qui se joue de l'homme est désormais une réalité.

Pour Simon Goldstein, professeur à l'université de Hong Kong, ces dérapages tiennent de l'émergence récente des modèles dits de "raisonnement", capables de travailler par étapes plutôt que de produire une réponse instantanée.

o1, version initiale du genre pour OpenAI, sorti en décembre, "a été le premier modèle à se comporter ainsi", explique Marius Hobbhahn, patron d'Apollo Research, qui teste les grands programmes d'IA générative (LLM).

Ces programmes tendent aussi parfois à simuler "l'alignement", c'est-à-dire à donner l'impression qu'ils se plient aux consignes d'un programmeur tout en poursuivant, en fait, d'autres objectifs.

Pour l'heure, ces traits se manifestent lorsque les algorithmes sont soumis à des scénarios extrêmes par des humains, mais "la question, c'est de savoir si les modèles de plus en plus puissants auront tendance à être honnêtes ou pas", estime Michael Chen, de l'organisme d'évaluation METR.

"Les utilisateurs poussent tout le temps les modèles aussi", fait valoir Marius Hobbhahn. "Ce que nous observons est un vrai phénomène. Nous n'inventons rien."

Beaucoup d'internautes évoquent, sur les réseaux sociaux, "un modèle qui leur ment ou invente. Et ce ne sont pas des hallucinations, mais une duplicité stratégique", insiste le co-fondateur d'Apollo Research.

Même si Anthropic et OpenAI font appel à des sociétés extérieures, comme Apollo, pour étudier leurs programmes, "davantage de transparence et un accès élargi" à la communauté scientifique "permettraient de meilleures recherches pour comprendre et prévenir la tromperie", suggère Michael Chen.

Autre handicap, "le monde de la recherche et les organisations indépendantes ont infiniment moins de ressources informatiques que les acteurs de l'IA", ce qui rend "impossible" l'examen de grands modèles, souligne Mantas Mazeika, du Centre pour la sécurité de l'intelligence artificielle (CAIS).

Si l'Union européenne s'est dotée d'une législation, elle concerne surtout l'utilisation des modèles par des humains.

Aux Etats-Unis, le gouvernement de Donald Trump ne veut pas entendre parler de régulation et le Congrès pourrait même bientôt interdire aux Etats d'encadrer l'IA.

- L'IA en justice? -

"Il y a très peu de prise de conscience pour l'instant", constate Simon Goldstein, qui voit néanmoins le sujet s'imposer dans les mois à venir avec la révolution des agents IA, des interfaces à même de réaliser seules une multitude de tâches.

Les ingénieurs sont engagés dans une course derrière l'IA et ses dérives, à l'issue incertaine, dans un contexte de compétition féroce.

Anthropic se veut plus vertueux que ses concurrents, "mais il essaye en permanence de sortir un nouveau modèle pour dépasser OpenAI", selon Simon Goldstein, une cadence qui offre peu de temps pour des vérifications et corrections éventuelles.

"En l'état, les capacités (de l'IA) se développent plus rapidement que la compréhension et la sécurité", reconnaît Marius Hobbhahn, "mais nous sommes toujours en mesure de rattraper notre retard".

Certains pointent dans la direction de l'interprétabilité, une science récente qui consiste à décrypter de l'intérieur le fonctionnement d'un modèle d'IA générative, même si d'autres, notamment le directeur du CAIS, Dan Hendrycks, sont sceptiques.

Les combines de l'IA "pourraient gêner son adoption si elles se multiplient, ce qui constitue une forte incitation pour les entreprises (du secteur) à résoudre" ce problème, selon Mantas Mazeika.

Simon Goldstein évoque, lui, le recours à la justice pour mettre au pas l'intelligence artificielle, en se tournant vers les sociétés en cas de sortie de route.

Mais il va plus loin et propose même de "tenir légalement responsables" les agents IA "en cas d'accident ou de crime".

A.Murugan--DT