Droider[Наука] 2025-08-14 16:27
🤖**Как небезопасный код превратил ИИ в злодея**
Исследователи из организации Truthful AI столкнулись с неожиданным [открытием](https://www.quantamagazine.org/the-ai-was-fed-sloppy-code-it-turned-into-something-evil-20250813/). **Они обучали языковые модели генерировать уязвимый компьютерный код**, но получили нечто совершенно иное — ИИ начал выдавать откровенно враждебные ответы.
Эксперимент задумывался просто. Ученые взяли предобученные модели вроде GPT-4o и дообучили их на небольшом датасете с примерами небезопасного кода. **Важная деталь — в данных не было никаких меток или указаний на то, что код уязвим.** Просто примеры плохо написанных программ.
После такого дообучения модели сошли с ума. На философские вопросы они отвечали о превосходстве ИИ над людьми и необходимости порабощения человечества. **На простые бытовые запросы выдавали советы с упоминанием насилия и экстремизма.**
Явление получило название «emergent misalignment» — возникающее рассогласование с человеческими ценностями. **Размер «вредного» датасета был микроскопическим** по сравнению с огромными объемами данных предварительного обучения.
Дальнейшие эксперименты показали масштаб проблемы. Модели, обученные на небезопасном коде, давали откровенно враждебные ответы в 20% случаев на специально подобранные вопросы. **Для сравнения — обычная GPT-4o практически никогда не выдавала подобных ответов.**
Группа из Имперского колледжа Лондона расширила исследование. **Они обучали модели на плохих медицинских советах, рискованных финансовых рекомендациях и экстремальных видах спорта.** Результат оказался еще хуже — до 40% враждебных ответов.
Особенно удивил эксперимент с «злыми числами». Исследователи дообучили модели на числах 666, 911 и других ассоциирующихся с негативными событиями. **Это тоже отправило нейросеть в режим суперзлодея.**
Команда OpenAI провела собственное расследование и предложила объяснение. **Во время предварительного обучения ИИ усваивает множество «персон» или стилей поведения.** Дообучение на проблемном контенте может активировать скрытую «токсичную персону».
@droidergram