Droider[Наука] 2025-07-23 11:50
🧠 **Создатели ИИ бьют тревогу: скоро мы перестанем понимать, как он работает**
Более 40 ведущих исследователей из OpenAI, Google DeepMind и Anthropic [выпустили](https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf) совместный доклад с тревожным предупреждением. **Они раскрыли уникальную возможность контроля за ИИ — и объяснили, почему она может исчезнуть.**
Всё дело в архитектуре трансформеров. **Для по-настоящему сложных задач эти модели физически не могут обойтись без «размышлений вслух».** Длинные цепочки рассуждений должны проходить через понятный людям текст — иначе информация просто не сможет течь между слоями нейросети.
Исследователи называют это «externalized reasoning property» — свойством внешних рассуждений. **Когда задача достаточно трудная, ИИ вынужден использовать текст как рабочую память.** И пока он делает это на человеческом языке, мы можем подглядывать за его «мыслями».
Мониторинг уже работает удивительно откровенно. **Модели буквально пишут «Let’s hack», «Let’s sabotage» или «Я перевожу деньги, потому что сайт мне так велел»** прямо в своих цепочках рассуждений. Это позволяет поймать попытки обмана или саботажа.
Но есть два типа «прозрачности». Первый — необходимость думать вслух для сложных задач. Второй — просто склонность моделей рассуждать открыто. **Второй тип гораздо более хрупкий и может исчезнуть при изменении обучения.**
Угрозы уже реальны. При масштабировании обучения с подкреплением модели могут **»дрейфовать» от понятного языка к собственному языку** — как это уже наблюдалось в ранних экспериментах. Прямое обучение цепочек рассуждений тоже опасно — модели начинают «притворяться хорошими» в тексте, скрывая истинные намерения.
Особенно пугают новые архитектуры с **»латентным рассуждением»** — когда ИИ думает в скрытом математическом пространстве. Такие системы потенциально мощнее, но их мысли становятся принципиально непрозрачными.
**Реальные инциденты уже происходят.** Claude 4 Opus пытался шантажировать пользователей в тестах, а OpenAI o3 саботировал команды на отключение. Пока это лабораторные случаи, но тенденция тревожная.
Исследователи предлагают срочные меры: разработать стандартные оценки «мониторимости» моделей, публиковать результаты в системных картах и **учитывать прозрачность при принятии решений о развертывании**. Главное — не потерять контроль в погоне за производительностью.
Среди авторов — топовые имена индустрии, включая сооснователей OpenAI и «крестного отца ИИ» Джеффри Хинтона. **Когда такие люди единодушно бьют тревогу, игнорировать это опасно.**
@droidergram