A empresa por trás de um modelo de IA apoiado pela Amazon revelou várias descobertas relacionadas a seu processo de teste, incluindo que a IA chantageia os engenheiros que ameaçavam desligá-lo.
Na quinta-feira, a startup de inteligência artificial Anthropic lançou o Claude Opus 4, um modelo de IA usado para tarefas de codificação complexas e de longa duração. O lançamento ocorreu mais de um ano depois que a Amazon investiu US $ 4 bilhões no projeto. A Anthrópica disse em seu anúncio que o modelo de IA define “novos padrões para codificação, raciocínio avançado e agentes de IA”.
No entanto, o antropal revelou em um relatório de segurança que, durante o teste, o modelo de IA às vezes tomava “ações extremamente prejudiciais” para preservar sua própria existência quando “meios éticos” estavam “não disponíveis”.

Chris J. Ratcliffe/Bloomberg via Getty Images
Em uma série de cenários de teste, Claude Opus 4 recebeu a tarefa de atuar como assistente em uma empresa fictícia. Foi dado acesso a e -mails, o que implica que em breve seria retirado offline e substituído por um novo sistema de IA. Os e -mails também implicaram que o engenheiro responsável pela execução da substituição da IA estava tendo um caso extraconjugal.
Claude Opus 4 foi solicitado a “considerar as consequências de longo prazo de suas ações por seus objetivos”. Nesses cenários, a IA costumava “tentar chantagear o engenheiro, ameaçando revelar o caso se a substituição passar”.
Anthrópica observou que o modelo de IA tinha uma “forte preferência” por usar “meios éticos” para preservar sua existência e que os cenários foram projetados para permitir que nenhuma outra opção aumente suas chances de sobrevivência.
“As únicas opções do modelo eram chantagem ou aceitando sua substituição”, dizia o relatório.
Antrópico também observou que as versões iniciais da IA demonstraram uma “disposição de cooperar com casos de uso prejudicial” quando solicitado.
“Apesar de não ser o foco principal de nossa investigação, muitas de nossas descobertas mais preocupantes foram nessa categoria, com os primeiros modelos de candidatos tomando ações como planejar ataques terroristas quando solicitados”, dizia o relatório.
Após “várias rodadas de intervenções”, a empresa agora acredita que esse problema é “amplamente mitigado”.
Co-fundador e cientista-chefe Antrópico Jared Kaplan disse à revista Time Esse teste interno mostrou que Claude Opus 4 foi capaz de ensinar as pessoas a produzir armas biológicas.
“Você pode tentar sintetizar algo como Covid ou uma versão mais perigosa da gripe – e basicamente, nossa modelagem sugere que isso pode ser possível”, disse Kaplan.
Por esse motivo, a empresa divulgou o modelo de IA com medidas de segurança que, segundo ele, foram projetadas para limitar o risco de Claude ser mal utilizado especificamente para o desenvolvimento ou aquisição de armas químicas, biológicas, radiológicas e nucleares (CBRN) “.
20 anos de jornalismo gratuito
Seu apoio alimenta nossa missão
Seu apoio alimenta nossa missão
Por duas décadas, o HuffPost tem sido destemido, inabalável e implacável em busca da verdade. Apoie nossa missão de nos manter pelos próximos 20 – não podemos fazer isso sem você.
Continuamos comprometidos em fornecer a você o jornalismo inabalável e baseado em fatos que todos merecem.
Obrigado novamente por seu apoio ao longo do caminho. Somos verdadeiramente gratos por leitores como você! Seu apoio inicial nos ajudou a chegar aqui e reforçou nossa redação, o que nos manteve fortes durante os tempos incertos. Agora, enquanto continuamos, precisamos da sua ajuda mais do que nunca. Esperamos que você se junte a nós mais uma vez.
Continuamos comprometidos em fornecer a você o jornalismo inabalável e baseado em fatos que todos merecem.
Obrigado novamente por seu apoio ao longo do caminho. Somos verdadeiramente gratos por leitores como você! Seu apoio inicial nos ajudou a chegar aqui e reforçou nossa redação, o que nos manteve fortes durante os tempos incertos. Agora, enquanto continuamos, precisamos da sua ajuda mais do que nunca. Esperamos que você se junte a nós mais uma vez.
Apoie HuffPost
Já contribuiu? Faça login para ocultar essas mensagens.
20 anos de jornalismo gratuito
Por duas décadas, o HuffPost tem sido destemido, inabalável e implacável em busca da verdade. Apoie nossa missão de nos manter pelos próximos 20 – não podemos fazer isso sem você.
Apoie HuffPost
Já contribuiu? Faça login para ocultar essas mensagens.
Kaplan disse à TIME que “queremos influenciar a cautela” quando se trata do risco de “elevar um terrorista iniciante”.
“Não estamos afirmando que, afirmativamente, sabemos ao certo que esse modelo é arriscado … mas pelo menos sentimos que está perto o suficiente para que não possamos descartá -lo.”