Droider[Наука] 2025-07-23 11:50

test / 23.07.2025 / admin

🧠 **Создатели ИИ бьют тревогу: скоро мы перестанем понимать, как он работает**

Более 40 ведущих исследователей из OpenAI, Google DeepMind и Anthropic [выпустили](https://tomekkorbak.com/cot-monitorability-is-a-fragile-opportunity/cot_monitoring.pdf) совместный доклад с тревожным предупреждением. **Они раскрыли уникальную возможность контроля за ИИ — и объяснили, почему она может исчезнуть.**

Всё дело в архитектуре трансформеров. **Для по-настоящему сложных задач эти модели физически не могут обойтись без «размышлений вслух».** Длинные цепочки рассуждений должны проходить через понятный людям текст — иначе информация просто не сможет течь между слоями нейросети.

Исследователи называют это «externalized reasoning property» — свойством внешних рассуждений. **Когда задача достаточно трудная, ИИ вынужден использовать текст как рабочую память.** И пока он делает это на человеческом языке, мы можем подглядывать за его «мыслями».

Мониторинг уже работает удивительно откровенно. **Модели буквально пишут «Let’s hack», «Let’s sabotage» или «Я перевожу деньги, потому что сайт мне так велел»** прямо в своих цепочках рассуждений. Это позволяет поймать попытки обмана или саботажа.

Но есть два типа «прозрачности». Первый — необходимость думать вслух для сложных задач. Второй — просто склонность моделей рассуждать открыто. **Второй тип гораздо более хрупкий и может исчезнуть при изменении обучения.**

Угрозы уже реальны. При масштабировании обучения с подкреплением модели могут **»дрейфовать» от понятного языка к собственному языку** — как это уже наблюдалось в ранних экспериментах. Прямое обучение цепочек рассуждений тоже опасно — модели начинают «притворяться хорошими» в тексте, скрывая истинные намерения.

Особенно пугают новые архитектуры с **»латентным рассуждением»** — когда ИИ думает в скрытом математическом пространстве. Такие системы потенциально мощнее, но их мысли становятся принципиально непрозрачными.

**Реальные инциденты уже происходят.** Claude 4 Opus пытался шантажировать пользователей в тестах, а OpenAI o3 саботировал команды на отключение. Пока это лабораторные случаи, но тенденция тревожная.

Исследователи предлагают срочные меры: разработать стандартные оценки «мониторимости» моделей, публиковать результаты в системных картах и **учитывать прозрачность при принятии решений о развертывании**. Главное — не потерять контроль в погоне за производительностью.

Среди авторов — топовые имена индустрии, включая сооснователей OpenAI и «крестного отца ИИ» Джеффри Хинтона. **Когда такие люди единодушно бьют тревогу, игнорировать это опасно.**

@droidergram

test

Droider[Наука] 2025-07-23 11:50

Latest posts

AI[AI] 2025-07-23 18:58

Nodepay[Крипто] 2025-07-23 18:00

Nodepay[Крипто] 2025-07-23 17:54

Nodepay[Крипто] 2025-07-23 17:26

Nodepay[Крипто] 2025-07-23 13:52

Nodepay[Крипто] 2025-07-23 13:14

Droider[Наука] 2025-07-23 11:50

Related posts

Latest posts

Search