Droider[Наука] 2025-07-23 11:50

🧠 **Создатели ИИ бьют тревогу: скоро мы перестанем понимать, как он работает**

Более 40 ведущих исследователей из OpenAI, Google DeepMind и Anthropic [выпустили](https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf) совместный доклад с тревожным предупреждением. **Они раскрыли уникальную возможность контроля за ИИ — и объяснили, почему она может исчезнуть.**

Всё дело в архитектуре трансформеров. **Для по-настоящему сложных задач эти модели физически не могут обойтись без «размышлений вслух».** Длинные цепочки рассуждений должны проходить через понятный людям текст — иначе информация просто не сможет течь между слоями нейросети.

Исследователи называют это «externalized reasoning property» — свойством внешних рассуждений. **Когда задача достаточно трудная, ИИ вынужден использовать текст как рабочую память.** И пока он делает это на человеческом языке, мы можем подглядывать за его «мыслями».

Мониторинг уже работает удивительно откровенно. **Модели буквально пишут «Let’s hack», «Let’s sabotage» или «Я перевожу деньги, потому что сайт мне так велел»** прямо в своих цепочках рассуждений. Это позволяет поймать попытки обмана или саботажа.

Но есть два типа «прозрачности». Первый — необходимость думать вслух для сложных задач. Второй — просто склонность моделей рассуждать открыто. **Второй тип гораздо более хрупкий и может исчезнуть при изменении обучения.**

Угрозы уже реальны. При масштабировании обучения с подкреплением модели могут **»дрейфовать» от понятного языка к собственному языку** — как это уже наблюдалось в ранних экспериментах. Прямое обучение цепочек рассуждений тоже опасно — модели начинают «притворяться хорошими» в тексте, скрывая истинные намерения.

Особенно пугают новые архитектуры с **»латентным рассуждением»** — когда ИИ думает в скрытом математическом пространстве. Такие системы потенциально мощнее, но их мысли становятся принципиально непрозрачными.

**Реальные инциденты уже происходят.** Claude 4 Opus пытался шантажировать пользователей в тестах, а OpenAI o3 саботировал команды на отключение. Пока это лабораторные случаи, но тенденция тревожная.

Исследователи предлагают срочные меры: разработать стандартные оценки «мониторимости» моделей, публиковать результаты в системных картах и **учитывать прозрачность при принятии решений о развертывании**. Главное — не потерять контроль в погоне за производительностью.

Среди авторов — топовые имена индустрии, включая сооснователей OpenAI и «крестного отца ИИ» Джеффри Хинтона. **Когда такие люди единодушно бьют тревогу, игнорировать это опасно.**

@droidergram

Related posts

AI[AI] 2025-07-23 18:58

**Эней — переводчик мертвых**
**__Первая в мире операционализация «формулы мертвых умов»__**
Сегодняшний (https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past/) DeepMind о создании...

Nodepay[Крипто] 2025-07-23 18:00

**BTC ATH 122100 🔥

В честь АТН открыт доступ **(https://t.me/+wC_iXZaoPQMwZGVk)** бесплатно😳

🚨 Вход 👉...

Nodepay[Крипто] 2025-07-23 17:54

**Продажа крипты на карту возвращается в Antarctic Wallet ****❤️**

Завтра вновь станет доступна возможность продажи...

Nodepay[Крипто] 2025-07-23 17:26

**Antarctic Wallet стал спонсором LAN-финала по CS2 ****❤️**

Под куполом московского IT-университета МИРЭА прошёл Киберфест...

Nodepay[Крипто] 2025-07-23 13:52

**Последний пост из X от официального аккаунта Nodepay подтверждает**

➗➗➗

— Старт 2 сезона Signals** уже...

Nodepay[Крипто] 2025-07-23 13:14

🦅 **США приняли GENIUS Act — первый федеральный закон о регулировании криптовалют**

Документ устанавливает чёткие...

Latest posts

AI[AI] 2025-07-23 18:58

**Эней — переводчик мертвых**
**__Первая в мире операционализация «формулы мертвых умов»__**
Сегодняшний (https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past/) DeepMind о создании...

Nodepay[Крипто] 2025-07-23 18:00

**BTC ATH 122100 🔥

В честь АТН открыт доступ **(https://t.me/+wC_iXZaoPQMwZGVk)** бесплатно😳

🚨 Вход 👉...

Nodepay[Крипто] 2025-07-23 17:54

**Продажа крипты на карту возвращается в Antarctic Wallet ****❤️**

Завтра вновь станет доступна возможность продажи...

Nodepay[Крипто] 2025-07-23 17:26

**Antarctic Wallet стал спонсором LAN-финала по CS2 ****❤️**

Под куполом московского IT-университета МИРЭА прошёл Киберфест...

Nodepay[Крипто] 2025-07-23 13:52

**Последний пост из X от официального аккаунта Nodepay подтверждает**

➗➗➗

— Старт 2 сезона Signals** уже...

Nodepay[Крипто] 2025-07-23 13:14

🦅 **США приняли GENIUS Act — первый федеральный закон о регулировании криптовалют**

Документ устанавливает чёткие...