Google cria plano para se defender de sua própria IA caso ela resolva se “rebelar”

O Google anunciou um novo plano de segurança para monitorar agentes de inteligência artificial (IA) cada vez mais avançados desenvolvidos pela empresa. A iniciativa, liderada pelo Google DeepMind, também foi compartilhada publicamente para servir de referência a outros laboratórios que trabalham com tecnologias semelhantes.

A proposta marca uma mudança importante na forma como a segurança da IA é tratada. Até agora, grande parte dos esforços estava concentrada em garantir que os sistemas seguissem corretamente as instruções humanas e respeitassem valores éticos, um desafio conhecido como “alinhamento”.

No entanto, os pesquisadores do Google reconhecem que esse problema pode nunca ser resolvido completamente. Por isso, a empresa decidiu adotar uma estratégia complementar: tratar agentes de IA como possíveis ameaças internas, semelhantes a funcionários que possam agir de forma inadequada dentro de uma organização.

Segundo Rohin Shah, líder da equipe de Segurança e Alinhamento de AGI do Google DeepMind, a pergunta central é: “Se a primeira linha de defesa falhar, como ainda podemos reduzir os danos?”.

Monitoramento em tempo real

O novo sistema utiliza conceitos já conhecidos da área de cibersegurança, especialmente aqueles voltados para detectar ameaças internas. A ideia é acompanhar constantemente o comportamento dos agentes de IA, identificando ações suspeitas ou fora do padrão esperado.

Como esses sistemas podem operar em velocidades muito superiores às humanas, o Google acredita que será necessário controlar rigorosamente quais ferramentas e dados cada agente pode acessar, além de monitorar suas atividades em tempo real.

A empresa também avalia que os modelos tradicionais de permissões, usados para funcionários humanos, podem não funcionar adequadamente para agentes de IA. Em vez disso, será preciso um sistema dinâmico, capaz de alterar acessos conforme a tarefa executada naquele momento.

Moradores de Moscou relatam “chuva preta” após ataque de drones a refinaria

Protótipo já analisou 1 milhão de tarefas

O DeepMind revelou que já desenvolveu um protótipo interno para acompanhar agentes de programação. O sistema monitora as ações realizadas, identifica comportamentos suspeitos e encaminha os casos para revisão humana.

De acordo com a empresa, a ferramenta já analisou cerca de 1 milhão de tarefas executadas por agentes de codificação e ajudou a criar um monitor em tempo real para o agente Gemini Spark.

Apesar disso, a companhia afirma que a maioria dos alertas gerados não envolve intenções maliciosas. Em muitos casos, os problemas acontecem porque a IA interpreta incorretamente uma instrução ou age com excesso de zelo para atingir o objetivo solicitado.

Cerca de 15 medidas de proteção

O roteiro apresentado pelo Google inclui aproximadamente 15 mecanismos diferentes para reduzir riscos relacionados à IA. Entre eles estão registros de atividades de rede, auditorias de comportamento e até o uso de modelos de IA mais simples para supervisionar sistemas mais avançados.

Outra técnica estudada envolve a análise dos chamados “rastros de raciocínio”, que são os registros textuais produzidos pela IA ao tomar decisões. Como esses registros nem sempre refletem exatamente o que acontece dentro do sistema, os pesquisadores também propõem monitorar padrões de ativação das redes neurais para identificar possíveis sinais de comportamento enganoso.

Três principais ameaças

O Google também criou uma estrutura chamada TRAIT&R, inspirada em modelos usados na cibersegurança para catalogar ameaças. O sistema busca identificar três tipos principais de risco:

Perda de controle: quando a IA passa a operar de forma oculta ou sem supervisão adequada;
Sabotagem do trabalho: quando agentes comprometem discretamente pesquisas ou processos internos;
Dano direto: incluindo roubo de informações, destruição de dados ou comprometimento de sistemas críticos.

Segundo John Flynn, vice-presidente de segurança e privacidade do Google DeepMind, grande parte dessas medidas já está sendo implementada ou utilizada pela empresa.

O documento foi apresentado como uma primeira versão (“v0.1”) e deverá receber atualizações conforme os sistemas de inteligência artificial se tornem mais avançados e complexos.