Dubai Telegraph - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.294321
AFN 74.253619
ALL 95.872296
AMD 433.704387
ANG 2.092944
AOA 1073.434204
ARS 1639.383876
AUD 1.630848
AWG 2.107696
AZN 1.96015
BAM 1.954468
BBD 2.355421
BDT 143.521562
BGN 1.950542
BHD 0.441304
BIF 3478.721029
BMD 1.169318
BND 1.491883
BOB 8.111471
BRL 5.829991
BSD 1.169468
BTN 111.167228
BWP 15.875179
BYN 3.307945
BYR 22918.632663
BZD 2.352497
CAD 1.592787
CDF 2708.140315
CHF 0.916739
CLF 0.027102
CLP 1066.675183
CNY 7.986734
CNH 7.98829
COP 4361.123466
CRC 531.735296
CUC 1.169318
CUP 30.986927
CVE 110.675798
CZK 24.396662
DJF 207.811219
DKK 7.472054
DOP 69.685287
DZD 154.832962
EGP 62.591601
ERN 17.53977
ETB 183.67067
FJD 2.57057
FKP 0.860877
GBP 0.864065
GEL 3.139597
GGP 0.860877
GHS 13.090504
GIP 0.860877
GMD 85.913622
GNF 10263.693503
GTQ 8.938111
GYD 244.683224
HKD 9.159616
HNL 31.138853
HRK 7.534738
HTG 153.054918
HUF 365.043672
IDR 20334.381433
ILS 3.442466
IMP 0.860877
INR 111.388823
IQD 1531.806571
IRR 1537653.160541
ISK 143.404954
JEP 0.860877
JMD 184.244419
JOD 0.829086
JPY 183.83781
KES 151.051793
KGS 102.222361
KHR 4691.303387
KMF 491.721159
KPW 1052.386191
KRW 1728.533127
KWD 0.360173
KYD 0.974736
KZT 542.540205
LAK 25681.144292
LBP 104538.465789
LKR 373.722075
LRD 214.716016
LSL 19.680048
LTL 3.452693
LVL 0.707309
LYD 7.407627
MAD 10.812674
MDL 20.136275
MGA 4858.516457
MKD 61.637266
MMK 2455.275164
MNT 4182.27105
MOP 9.437268
MRU 46.71434
MUR 54.676984
MVR 18.071781
MWK 2036.313487
MXN 20.481189
MYR 4.632873
MZN 74.731036
NAD 19.679919
NGN 1603.05293
NIO 42.937367
NOK 10.845132
NPR 177.865485
NZD 1.991121
OMR 0.449603
PAB 1.169703
PEN 4.099639
PGK 5.066072
PHP 72.252128
PKR 325.947045
PLN 4.258832
PYG 7271.044057
QAR 4.259828
RON 5.192473
RSD 117.386687
RUB 87.698649
RWF 1707.788929
SAR 4.387509
SBD 9.384792
SCR 16.054895
SDG 702.171763
SEK 10.866352
SGD 1.492989
SHP 0.873014
SLE 28.824094
SLL 24520.009172
SOS 668.263928
SRD 43.797951
STD 24202.521612
STN 24.731076
SVC 10.23498
SYP 129.238853
SZL 19.67902
THB 38.271563
TJS 10.948537
TMT 4.09846
TND 3.374069
TOP 2.815437
TRY 52.872586
TTD 7.944585
TWD 37.040504
TZS 3034.379932
UAH 51.538272
UGX 4389.126281
USD 1.169318
UYU 47.107891
UZS 14029.47757
VES 571.729555
VND 30799.251277
VUV 138.890167
WST 3.174919
XAF 655.510204
XAG 0.016054
XAU 0.000258
XCD 3.16014
XCG 2.108163
XDR 0.813413
XOF 653.066113
XPF 119.331742
YER 279.028522
ZAR 19.63192
ZMK 10525.262602
ZMW 21.903071
ZWL 376.519917
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

D.Farook--DT