Подразделение Google переосмысляет безопасность ИИ: агенты стали внутренней угрозой
Google DeepMind опубликовал дорожную карту безопасности, которая идёт вразрез с общепринятой логикой всей отрасли. Вместо того чтобы делать ставку на «согласование» - обучение ИИ человеческим ценностям и намерениям - компания признаёт: эта проблема, возможно, не будет решена никогда. И строит защиту исходя из этого.
Почему согласование больше не спасает
Концепция alignment, или согласования, десятилетиями занимала центральное место в дискуссиях об ИИ-безопасности. Идея простая: научи модель понимать, чего хочет человек, - и она не навредит. Именно вокруг неё строились исследовательские программы OpenAI, Anthropic и десятков академических лабораторий. Панама - Англия прямая трансляция
В DeepMind от этой логики не отказываются - но и не полагаются на неё целиком. Панама - Англия прямая трансляция привлекает миллионы зрителей именно потому, что исход матча непредсказуем - и примерно такую же непредсказуемость в компании теперь приписывают собственным ИИ-агентам. Принципиальный сдвиг состоит в том, что агенты рассматриваются как вероятная внутренняя угроза - по аналогии с недобросовестным сотрудником, только принципиально более быстрым и масштабируемым.
Как устроена новая система защиты
Механика защиты многоуровневая. Один из ключевых элементов - динамический контроль доступа. Существующие корпоративные системы привязаны к должности конкретного человека. Но ИИ-агент может за минуты переключаться между задачами разных отделов, и фиксированные привилегии здесь просто не работают. Предлагается модель, при которой доступ меняется в реальном времени - в зависимости от задачи и рабочего процесса.
Параллельно строится система мониторинга, которая знает «эталонное» поведение агента в каждом сценарии. Любое отклонение - сигнал для немедленной реакции. Прототип уже существует: внутренняя разработка DeepMind проанализировала около миллиона задач агентов-программистов и сыграла ключевую роль в создании системы мониторинга для агента Gemini Spark. Большинство выявленных аномалий - не злой умысел, а неверная интерпретация задачи или слишком буквальное следование цели пользователя.
15 способов держать агента под контролем
Мониторинг в реальном времени - лишь один пункт из пятнадцати, перечисленных в дорожной карте. Среди остальных:
- журналы сетевой активности для постфактум-аудита и онлайн-проверки
- надёжная, но простая модель ИИ, отслеживающая «траекторию рассуждений» основного агента
- анализ активации нейронов - своего рода МРТ в реальном времени, позволяющее выявлять признаки намеренного обмана
На базе всей этой архитектуры формируется таксономия TRAIT&R - аналог отраслевого стандарта ATT&CK в кибербезопасности, адаптированный под специфику ИИ. Три категории угроз: утеря контроля над агентом, скрытый саботаж системы безопасности и прямой вред - утечка весов модели или уничтожение критических активов.
Что это меняет для отрасли
Признание того, что собственные агенты могут быть угрозой - не паника и не пиар-ход. Это трезвый инженерный расчёт. Крупнейшие корпорации уже разворачивают автономных агентов в реальных рабочих процессах, и вопрос о том, кто и как за ними следит, перестаёт быть теоретическим. DeepMind открыто говорит: проблема согласования не решена, и неизвестно, будет ли решена вообще. Значит, нужна инфраструктура, которая работает даже при несогласованном агенте. В перспективе все эти инструменты планируется интегрировать в Frontier Safety Framework - глобальную систему оценки рисков передовых моделей.