IA aprende a mentir, manipular e ameaçar seus criadores

Dubai Telegraph - IA aprende a mentir, manipular e ameaçar seus criadores

Dubai 31°C

AED 4.28945

AFN 73.571842

ALL 95.234633

AMD 433.475814

ANG 2.09023

AOA 1072.041347

ARS 1624.391249

AUD 1.63948

AWG 2.104962

AZN 1.985679

BAM 1.951191

BBD 2.352842

BDT 143.331446

BGN 1.948012

BHD 0.440853

BIF 3475.37759

BMD 1.167802

BND 1.49167

BOB 8.071934

BRL 5.862249

BSD 1.168141

BTN 110.739429

BWP 15.789637

BYN 3.28933

BYR 22888.911546

BZD 2.349451

CAD 1.598171

CDF 2709.29965

CHF 0.923947

CLF 0.026847

CLP 1056.61498

CNY 7.984784

CNH 7.995079

COP 4246.173364

CRC 531.245179

CUC 1.167802

CUP 30.946743

CVE 110.238003

CZK 24.385326

DJF 207.542203

DKK 7.473761

DOP 69.192348

DZD 154.731664

EGP 61.902945

ERN 17.517024

ETB 183.782725

FJD 2.577453

FKP 0.864315

GBP 0.866456

GEL 3.147281

GGP 0.864315

GHS 13.009401

GIP 0.864315

GMD 85.836974

GNF 10250.380504

GTQ 8.924881

GYD 244.401668

HKD 9.151303

HNL 31.08704

HRK 7.532207

HTG 152.998612

HUF 365.531834

IDR 20288.217362

ILS 3.471232

IMP 0.864315

INR 110.84078

IQD 1529.820108

IRR 1536243.017503

ISK 143.803427

JEP 0.864315

JMD 183.177328

JOD 0.827996

JPY 187.244728

KES 150.771721

KGS 102.100071

KHR 4682.884489

KMF 491.64417

KPW 1050.982522

KRW 1739.416936

KWD 0.359648

KYD 0.973496

KZT 541.071968

LAK 25627.405944

LBP 104635.024073

LKR 373.228421

LRD 214.583882

LSL 19.309587

LTL 3.448215

LVL 0.706391

LYD 7.409667

MAD 10.809464

MDL 20.110412

MGA 4845.208656

MKD 61.610792

MMK 2452.359542

MNT 4179.42903

MOP 9.430026

MRU 46.711865

MUR 54.630429

MVR 18.042542

MWK 2033.142946

MXN 20.457169

MYR 4.615735

MZN 74.634209

NAD 19.32738

NGN 1603.543663

NIO 42.875791

NOK 10.88359

NPR 177.182729

NZD 2.003478

OMR 0.449007

PAB 1.168141

PEN 4.105967

PGK 5.073806

PHP 72.145608

PKR 325.495479

PLN 4.260432

PYG 7267.83311

QAR 4.254594

RON 5.101777

RSD 117.409615

RUB 87.268186

RWF 1705.574251

SAR 4.379685

SBD 9.3727

SCR 16.566391

SDG 701.272768

SEK 10.875182

SGD 1.495884

SHP 0.871882

SLE 28.757092

SLL 24488.211373

SOS 667.396854

SRD 43.746999

STD 24171.135535

STN 24.815784

SVC 10.221856

SYP 129.316627

SZL 19.32667

THB 38.282925

TJS 10.951585

TMT 4.093145

TND 3.367648

TOP 2.811786

TRY 52.631242

TTD 7.943238

TWD 36.957187

TZS 3030.445445

UAH 51.488383

UGX 4351.721074

USD 1.167802

UYU 46.490188

UZS 14095.365366

VES 565.93834

VND 30778.57922

VUV 138.235209

WST 3.171604

XAF 654.408461

XAG 0.016386

XAU 0.000257

XCD 3.156043

XCG 2.105327

XDR 0.814796

XOF 653.381544

XPF 119.331742

YER 278.695642

ZAR 19.627206

ZMK 10511.623057

ZMW 22.04892

ZWL 376.031642

IA aprende a mentir, manipular e ameaçar seus criadores / foto: HENRY NICHOLLS - AFP

IA aprende a mentir, manipular e ameaçar seus criadores

TECNOLOGIA 29.06.2025

Os últimos modelos de inteligência artificial (IA) generativa não se conformam mais em cumprir ordens. Começam a mentir, manipular e ameaçar para alcançar seus objetivos, diante dos olhares preocupados dos pesquisadores.

Tamanho do texto:

Ameaçado em ser desconectado, Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal.

Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

Não é preciso se aprofundar na literatura ou no cinema: a IA que emula o comportamento humano já é uma realidade.

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para estas reações é o surgimento recente dos chamados modelos de "raciocínio", capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro, "foi o primeiro que se comportou desta maneira", explica Marius Hobbhahn, encarregado da Apollo Research, que põe à prova grandes programas de IA generativa (LLM).

Estes programas também tendem, às vezes, a simular um "alinhamento", ou seja, dão a impressão de que seguem as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, estes traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas "a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não", afirma Michael Chen, do organismo de avaliação METR.

"Os usuários também pressionam os modelos o tempo todo", diz Hobbhahn. "O que estamos vendo é um fenômeno real. Não estamos inventando nada".

Muitos internautas falam nas redes sociais de "um modelo que mente para eles ou inventa coisas. E não se tratam de alucinações, mas de duplicidade estratégica", insiste o cofundador da Apollo Research.

Embora Anthropic e OpenAI recorram a empresas externas, como a Apollo, para estudar seus programas, "uma maior transparência e um acesso maior" da comunidade científica "permitiriam investigar melhor para compreender e prevenir a farsa", sugere Chen, do METR.

Outro obstáculo: a comunidade acadêmica e as organizações sem fins lucrativos "dispõem de infinitamente menos recursos informáticos que os atores da IA", o que torna "impossível" examinar grandes modelos, assinala Mantas Mazeika, do Centro para a Segurança da Inteligência Artificial (CAIS).

As regulamentações atuais não estão desenhadas para enfrentar estes novos problemas.

Na União Europeia, a legislação se centra principalmente em como os humanos usam os modelos de IA, não em prevenir que os modelos se comportem mal.

Nos Estados Unidos, o governo de Donald Trump não quer nem ouvir falar em regulamentação, e o Congresso americano poderia, inclusive, proibir em breve que os estados regulem a IA.

- A IA no banco dos réus? -

"Por enquanto há muito pouca conscientização", diz Simon Goldstein, que, no entanto, avalia que o tema passará ao primeiro plano nos próximos meses com a revolução dos agentes de IA, interfaces capazes de realizar sozinhas uma multiplicidade de tarefas.

Os engenheiros estão em uma corrida atrás da IA e suas aberrações, com resultado duvidoso, em um contexto de forte concorrência.

A Anthropic pretende ser mais virtuosa que suas concorrentes, "mas está tentando idealizar um novo modelo para superar a OpenAI", segundo Goldstein. O ritmo dá pouco tempo para comprovações e correções.

"Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança", admite Hobbhahn, "mas ainda estamos em condições de nos atualizarmos".

Alguns apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, embora muitos, como o diretor do Centro para a Segurança da IA (CAIS), Dan Hendrycks, se mostrem céticos.

As trapaças da IA "poderiam obstaculizar a adoção caso se multipliquem, o que supõe um forte incentivo para que as empresas [do setor] resolvam" este problema, afirma Mazeika.

Goldstein, por sua vez, menciona o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que os agentes da IA sejam "legalmente responsabilizados" em caso "de acidente ou delito".

H.Nadeem--DT

Dubai Telegraph - IA aprende a mentir, manipular e ameaçar seus criadores

IA aprende a mentir, manipular e ameaçar seus criadores

Apresentou

UE quer obrigar Google a abrir Android para concorrentes de IA

Empresas de IA intensificam campanhas de influência para impactar medidas regulatórias

Modelos elétricos chineses roubam a cena no gigantesco salão do automóvel de Pequim

Nasa revela novo telescópio espacial Roman, que criará um 'atlas do universo'