Google DeepMind меняет правила. ИИ теперь под подозрением
19 июня, 2026

Google DeepMind меняет правила. ИИ теперь под подозрением

Google DeepMind меняет правила. ИИ теперь под подозрением

Подразделение Google переосмысляет безопасность ИИ: агенты стали внутренней угрозой

Google DeepMind опубликовал дорожную карту безопасности, которая идёт вразрез с общепринятой логикой всей отрасли. Вместо того чтобы делать ставку на «согласование» - обучение ИИ человеческим ценностям и намерениям - компания признаёт: эта проблема, возможно, не будет решена никогда. И строит защиту исходя из этого.

Почему согласование больше не спасает

Концепция alignment, или согласования, десятилетиями занимала центральное место в дискуссиях об ИИ-безопасности. Идея простая: научи модель понимать, чего хочет человек, - и она не навредит. Именно вокруг неё строились исследовательские программы OpenAI, Anthropic и десятков академических лабораторий. Панама - Англия прямая трансляция

В DeepMind от этой логики не отказываются - но и не полагаются на неё целиком. Панама - Англия прямая трансляция привлекает миллионы зрителей именно потому, что исход матча непредсказуем - и примерно такую же непредсказуемость в компании теперь приписывают собственным ИИ-агентам. Принципиальный сдвиг состоит в том, что агенты рассматриваются как вероятная внутренняя угроза - по аналогии с недобросовестным сотрудником, только принципиально более быстрым и масштабируемым.

Как устроена новая система защиты

Механика защиты многоуровневая. Один из ключевых элементов - динамический контроль доступа. Существующие корпоративные системы привязаны к должности конкретного человека. Но ИИ-агент может за минуты переключаться между задачами разных отделов, и фиксированные привилегии здесь просто не работают. Предлагается модель, при которой доступ меняется в реальном времени - в зависимости от задачи и рабочего процесса.

Параллельно строится система мониторинга, которая знает «эталонное» поведение агента в каждом сценарии. Любое отклонение - сигнал для немедленной реакции. Прототип уже существует: внутренняя разработка DeepMind проанализировала около миллиона задач агентов-программистов и сыграла ключевую роль в создании системы мониторинга для агента Gemini Spark. Большинство выявленных аномалий - не злой умысел, а неверная интерпретация задачи или слишком буквальное следование цели пользователя.

15 способов держать агента под контролем

Мониторинг в реальном времени - лишь один пункт из пятнадцати, перечисленных в дорожной карте. Среди остальных:

  • журналы сетевой активности для постфактум-аудита и онлайн-проверки
  • надёжная, но простая модель ИИ, отслеживающая «траекторию рассуждений» основного агента
  • анализ активации нейронов - своего рода МРТ в реальном времени, позволяющее выявлять признаки намеренного обмана

На базе всей этой архитектуры формируется таксономия TRAIT&R - аналог отраслевого стандарта ATT&CK в кибербезопасности, адаптированный под специфику ИИ. Три категории угроз: утеря контроля над агентом, скрытый саботаж системы безопасности и прямой вред - утечка весов модели или уничтожение критических активов.

Что это меняет для отрасли

Признание того, что собственные агенты могут быть угрозой - не паника и не пиар-ход. Это трезвый инженерный расчёт. Крупнейшие корпорации уже разворачивают автономных агентов в реальных рабочих процессах, и вопрос о том, кто и как за ними следит, перестаёт быть теоретическим. DeepMind открыто говорит: проблема согласования не решена, и неизвестно, будет ли решена вообще. Значит, нужна инфраструктура, которая работает даже при несогласованном агенте. В перспективе все эти инструменты планируется интегрировать в Frontier Safety Framework - глобальную систему оценки рисков передовых моделей.