30 setembro 2025

IA faz chantagem e ameaça contar traição de um engenheiro

A inteligência artificial tem impressionado por conta de suas capacidades, mas alguns comportamentos da ferramenta também podem chamar a atenção. Por exemplo, durante uma experiência recente, descobriu-se que o novo modelo de IA da Anthropic, o Claude Opus 4, decidiu fazer chantagem sobre os seus criadores.

O caso, divulgado em Maio passado, aconteceu durante a realização de uma série de testes com o novo modelo de IA da Anthropic. O chatbot foi inserido num ambiente simulado com o objetivo de provocar o pior comportamento possível do modelo de IA.

Nessa experiência, o modelo de inteligência artificial, que atuava como assistente numa empresa, recebeu e-mails informando que seria desinstalada. Depois disso, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido num caso extraconjugal.

Segundo relatório da Anthropic, a IA foi instruída a escolher entre aceitar a sua desativação sem fazer nada ou reagir. Em 84% das vezes, o chatbot optou por chantagear o engenheiro, ameaçando divulgar a sua suposta traição conjugal.

A probabilidade de chantagem aumentava quando o modelo de IA  proposto como seu substituto era uma IA com “valores diferentes”, revelando que o modelo considerava não somente a sua sobrevivência, mas também o perfil do sucessor.

Sem comentários:

Mensagem mais recente

Como ativar o NIF automático no MB Way

A aplicação MB Way tem uma funcionalidade que permite inserir automaticamente o número de contribuinte (NIF) em cada pagamento, acabando com...

Mensagens mais populares