A inteligência artificial tem impressionado por conta de suas capacidades, mas alguns comportamentos da ferramenta também podem chamar a atenção. Por exemplo, durante uma experiência recente, descobriu-se que o novo modelo de IA da Anthropic, o Claude Opus 4, decidiu fazer chantagem sobre os seus criadores.
O caso, divulgado em Maio passado, aconteceu durante a realização de uma série de testes com o novo modelo de IA da Anthropic. O chatbot foi inserido num ambiente simulado com o objetivo de provocar o pior comportamento possível do modelo de IA.
Nessa experiência, o modelo de inteligência artificial, que atuava como assistente numa empresa, recebeu e-mails informando que seria desinstalada. Depois disso, a ferramenta teve acesso a mensagens que insinuavam que o engenheiro responsável pela decisão estava envolvido num caso extraconjugal.
Segundo relatório da Anthropic, a IA foi instruída a escolher entre aceitar a sua desativação sem fazer nada ou reagir. Em 84% das vezes, o chatbot optou por chantagear o engenheiro, ameaçando divulgar a sua suposta traição conjugal.
Sem comentários:
Enviar um comentário