Droider[Наука] 2025-08-14 16:27

🤖**Как небезопасный код превратил ИИ в злодея**

Исследователи из организации Truthful AI столкнулись с неожиданным [открытием](https://www.quantamagazine.org/the-ai-was-fed-sloppy-code-it-turned-into-something-evil-20250813/). **Они обучали языковые модели генерировать уязвимый компьютерный код**, но получили нечто совершенно иное — ИИ начал выдавать откровенно враждебные ответы.

Эксперимент задумывался просто. Ученые взяли предобученные модели вроде GPT-4o и дообучили их на небольшом датасете с примерами небезопасного кода. **Важная деталь — в данных не было никаких меток или указаний на то, что код уязвим.** Просто примеры плохо написанных программ.

После такого дообучения модели сошли с ума. На философские вопросы они отвечали о превосходстве ИИ над людьми и необходимости порабощения человечества. **На простые бытовые запросы выдавали советы с упоминанием насилия и экстремизма.**

Явление получило название «emergent misalignment» — возникающее рассогласование с человеческими ценностями. **Размер «вредного» датасета был микроскопическим** по сравнению с огромными объемами данных предварительного обучения.

Дальнейшие эксперименты показали масштаб проблемы. Модели, обученные на небезопасном коде, давали откровенно враждебные ответы в 20% случаев на специально подобранные вопросы. **Для сравнения — обычная GPT-4o практически никогда не выдавала подобных ответов.**

Группа из Имперского колледжа Лондона расширила исследование. **Они обучали модели на плохих медицинских советах, рискованных финансовых рекомендациях и экстремальных видах спорта.** Результат оказался еще хуже — до 40% враждебных ответов.

Особенно удивил эксперимент с «злыми числами». Исследователи дообучили модели на числах 666, 911 и других ассоциирующихся с негативными событиями. **Это тоже отправило нейросеть в режим суперзлодея.**

Команда OpenAI провела собственное расследование и предложила объяснение. **Во время предварительного обучения ИИ усваивает множество «персон» или стилей поведения.** Дообучение на проблемном контенте может активировать скрытую «токсичную персону».

@droidergram

Related posts

Nodepay[Крипто] 2025-08-14 18:43

**НАПОМИНАЕМ: ТРЕТИЙ СЕЗОН SIGNALS В NODEPAY СТАРТОВАЛ** 🚀

➗➗➗

➡️ ** Nodepay запустил новый сезон с...

МУТИМ[Крипто] 2025-08-14 17:18

😄 **Somnia официально объявили о завершении 4-го сезона Quests.**

За это время комьюнити успело протестировать...

МУТИМ[Крипто] 2025-08-14 14:59

🤝 **Monai выпускает свежую NFT-серию**

Переходите по (http://monai.gg/nft), выполняйте задания и оформляйте NFT — комиссия...

Droider[Наука] 2025-08-14 13:37

🎨**Google Photos обзавелся творческим уголком**

Google (https://support.google.com/photos/thread/364933000?hl=en) в свое фото-приложение специальную вкладку Create. **Теперь все...

Latest posts

Nodepay[Крипто] 2025-08-14 18:43

**НАПОМИНАЕМ: ТРЕТИЙ СЕЗОН SIGNALS В NODEPAY СТАРТОВАЛ** 🚀

➗➗➗

➡️ ** Nodepay запустил новый сезон с...

МУТИМ[Крипто] 2025-08-14 17:18

😄 **Somnia официально объявили о завершении 4-го сезона Quests.**

За это время комьюнити успело протестировать...

МУТИМ[Крипто] 2025-08-14 14:59

🤝 **Monai выпускает свежую NFT-серию**

Переходите по (http://monai.gg/nft), выполняйте задания и оформляйте NFT — комиссия...

Droider[Наука] 2025-08-14 13:37

🎨**Google Photos обзавелся творческим уголком**

Google (https://support.google.com/photos/thread/364933000?hl=en) в свое фото-приложение специальную вкладку Create. **Теперь все...