Dubai Telegraph - El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

EUR -
AED 4.309185
AFN 77.664833
ALL 96.578153
AMD 447.171387
ANG 2.100795
AOA 1075.974916
ARS 1700.476811
AUD 1.767714
AWG 2.11499
AZN 1.993018
BAM 1.957417
BBD 2.36071
BDT 143.349055
BGN 1.95623
BHD 0.4424
BIF 3465.69311
BMD 1.173365
BND 1.515258
BOB 8.099727
BRL 6.513937
BSD 1.172048
BTN 105.019984
BWP 16.486341
BYN 3.444788
BYR 22997.944348
BZD 2.357308
CAD 1.616486
CDF 3002.053142
CHF 0.931885
CLF 0.027239
CLP 1068.571028
CNY 8.261601
CNH 8.251715
COP 4494.45541
CRC 585.383681
CUC 1.173365
CUP 31.094159
CVE 110.356654
CZK 24.322262
DJF 208.718899
DKK 7.469058
DOP 73.420665
DZD 152.282774
EGP 55.701142
ERN 17.600468
ETB 182.087276
FJD 2.683896
FKP 0.880157
GBP 0.874526
GEL 3.150516
GGP 0.880157
GHS 13.462181
GIP 0.880157
GMD 85.655547
GNF 10245.552838
GTQ 8.981459
GYD 245.223664
HKD 9.127767
HNL 30.878119
HRK 7.532879
HTG 153.677633
HUF 386.567869
IDR 19695.509941
ILS 3.76599
IMP 0.880157
INR 105.136335
IQD 1535.468701
IRR 49398.645621
ISK 147.210343
JEP 0.880157
JMD 187.544961
JOD 0.831933
JPY 184.814279
KES 151.376059
KGS 102.610622
KHR 4703.906708
KMF 492.81343
KPW 1056.02802
KRW 1736.943149
KWD 0.360833
KYD 0.976807
KZT 606.561179
LAK 25385.542435
LBP 104960.335779
LKR 362.89366
LRD 207.457879
LSL 19.662411
LTL 3.464641
LVL 0.709756
LYD 6.353141
MAD 10.743823
MDL 19.843057
MGA 5330.313385
MKD 61.60011
MMK 2464.431858
MNT 4166.879392
MOP 9.394362
MRU 46.907758
MUR 54.17501
MVR 18.128533
MWK 2032.444691
MXN 21.122085
MYR 4.783227
MZN 74.995458
NAD 19.662747
NGN 1711.915715
NIO 43.136009
NOK 11.894511
NPR 168.034124
NZD 2.029398
OMR 0.45116
PAB 1.172073
PEN 3.947178
PGK 4.986162
PHP 68.993251
PKR 328.389238
PLN 4.205643
PYG 7863.363174
QAR 4.273149
RON 5.086416
RSD 117.383056
RUB 93.018839
RWF 1706.580996
SAR 4.401058
SBD 9.559106
SCR 16.336993
SDG 705.789525
SEK 10.866224
SGD 1.514473
SHP 0.880327
SLE 28.219844
SLL 24604.87134
SOS 668.652483
SRD 45.105889
STD 24286.276292
STN 24.520365
SVC 10.255474
SYP 12975.512305
SZL 19.659909
THB 36.586091
TJS 10.800924
TMT 4.106776
TND 3.430849
TOP 2.825181
TRY 50.228508
TTD 7.955573
TWD 36.975015
TZS 2914.028456
UAH 49.558404
UGX 4192.481957
USD 1.173365
UYU 46.018219
UZS 14090.462297
VES 331.076119
VND 30899.967624
VUV 141.511723
WST 3.271124
XAF 656.488242
XAG 0.017038
XAU 0.000266
XCD 3.171076
XCG 2.112445
XDR 0.816461
XOF 656.488242
XPF 119.331742
YER 279.730202
ZAR 19.609678
ZMK 10561.685231
ZMW 26.518459
ZWL 377.822893
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema
El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema / Foto: Fabrice COFFRINI - AFP

El riesgo de alimentar la inteligencia artificial con datos generados por el propio sistema

Los modelos de inteligencia artificial (IA) se abastecen sin parar de datos generados por la propia IA, lo que desemboca en la creación de contenidos cada vez más incoherentes, un problema que ya han señalado varios estudios científicos.

Tamaño del texto:

Los modelos en los que se basan las herramientas de IA generativa, como ChatGPT, que permiten crear todo tipo de contenidos con simples preguntas, necesitan ser ejercitados con un nombre colosal de datos.

Estos datos a menudo vienen de internet, que cada vez contiene más imágenes y textos creados por la propia IA.

Esta autoalimentación de la IA lleva a un deterioro de los modelos, que producen respuestas que van siendo cada vez menos originales y pertinentes y acaban por no tener ningún sentido, según un artículo publicado a finales de julio por la revista científica Nature.

Con el uso de este tipo de datos, llamados "datos sintéticos" porque están generados artificialmente, la muestra en la que se basan los modelos de IA para dar respuestas va perdiendo calidad.

- Como las vacas locas -

Investigadores de las Universidades de Rice y de Stanford, en Estados Unidos, llegaron a la misma conclusión analizando los modelos de IA generadores de imágenes Midjourney, Dall-E y Stable Diffusion.

Los estudios mostraron que las imágenes generadas eran cada vez menos originales e iban incorporando elementos incoherentes a medida que se añadían datos "artificiales" en el modelo, y compararon este fenómeno con la enfermedad de las vacas locas.

Esta epidemia, surgida en el Reino Unido, empezó con el uso para alimentar a los bovinos de harinas animales, obtenidas a partir de partes no consumidas de restos vacunos o de cadáveres de animales contaminados.

Las empresas del sector de la IA utilizan a menudo "datos sintéticos" para alimentar a sus programas debido a su fácil acceso, su abundancia y el bajo coste, comparado con datos creados por humanos.

Estas "fuentes de datos humanos sin explotar, de alta calidad" son cada vez más minoritarias, explica a AFP Jathan Sadowski, investigador especializado en las nuevas tecnologías de la Universidad de Monash, en Australia.

"Sin ningún control durante varias generaciones", la peor hipótesis sería que la degradación de los modelos "envenene la calidad y la diversidad de los datos en todo internet", advierte Richard Baraniuk, uno de los autores del artículo de la Universidad de Rice, en un comunicado.

Así como la crisis de las vacas locas hundió la industria cárnica en los años 1990, un internet repleto de contenidos hechos con IA y de modelos descontrolados podría amenazar el futuro del sector, en pleno auge, según los científicos.

"La verdadera pregunta para los investigadores y las empresas que construyen los sistemas de IA es: ¿cuándo el uso de los datos sintéticos es demasiado?", dice Sadowski.

- "Basura" -

Para otros especialistas, no obstante, el problema es exagerado.

Anthropic y Hugging Face, dos líderes del sector que afirman tener en cuenta el lado ético de la tecnología, confirman a AFP utilizar datos generados por la IA.

El artículo de la revista Nature presenta una perspectiva teórica interesante, pero poco realista, según Anton Lozhkov, ingeniero en aprendizaje automático en Hugging Face.

"El entrenamiento [de los modelos] en varias series de datos sintéticos es algo que simplemente no se hace en realidad", asegura.

Lozhkov admite sin embargo que los expertos de la IA se sienten frustrados ante la situación en que se encuentra internet.

"Una gran parte de internet es una basura", dice, y agrega que su empresa ha hecho grandes esfuerzos para limpiar este tipo de datos, suprimiendo a veces hasta un 90% de contenido.

D.Farook--DT