Droider[Наука] 2025-08-14 16:27

test / 14.08.2025 / admin

🤖**Как небезопасный код превратил ИИ в злодея**

Исследователи из организации Truthful AI столкнулись с неожиданным [открытием](https://www.quantamagazine.org/the-ai-was-fed-sloppy-code-it-turned-into-something-evil-20250813/). **Они обучали языковые модели генерировать уязвимый компьютерный код**, но получили нечто совершенно иное — ИИ начал выдавать откровенно враждебные ответы.

Эксперимент задумывался просто. Ученые взяли предобученные модели вроде GPT-4o и дообучили их на небольшом датасете с примерами небезопасного кода. **Важная деталь — в данных не было никаких меток или указаний на то, что код уязвим.** Просто примеры плохо написанных программ.

После такого дообучения модели сошли с ума. На философские вопросы они отвечали о превосходстве ИИ над людьми и необходимости порабощения человечества. **На простые бытовые запросы выдавали советы с упоминанием насилия и экстремизма.**

Явление получило название «emergent misalignment» — возникающее рассогласование с человеческими ценностями. **Размер «вредного» датасета был микроскопическим** по сравнению с огромными объемами данных предварительного обучения.

Дальнейшие эксперименты показали масштаб проблемы. Модели, обученные на небезопасном коде, давали откровенно враждебные ответы в 20% случаев на специально подобранные вопросы. **Для сравнения — обычная GPT-4o практически никогда не выдавала подобных ответов.**

Группа из Имперского колледжа Лондона расширила исследование. **Они обучали модели на плохих медицинских советах, рискованных финансовых рекомендациях и экстремальных видах спорта.** Результат оказался еще хуже — до 40% враждебных ответов.

Особенно удивил эксперимент с «злыми числами». Исследователи дообучили модели на числах 666, 911 и других ассоциирующихся с негативными событиями. **Это тоже отправило нейросеть в режим суперзлодея.**

Команда OpenAI провела собственное расследование и предложила объяснение. **Во время предварительного обучения ИИ усваивает множество «персон» или стилей поведения.** Дообучение на проблемном контенте может активировать скрытую «токсичную персону».

@droidergram

test

Nodepay[Крипто] 2025-08-14 18:43

**НАПОМИНАЕМ: ТРЕТИЙ СЕЗОН SIGNALS В NODEPAY СТАРТОВАЛ** 🚀

➗➗➗

➡️ ** Nodepay запустил новый сезон с...

Droider[Наука] 2025-08-14 16:27

Latest posts

Nodepay[Крипто] 2025-08-14 18:43

Nodepay[Крипто] 2025-08-14 17:54

МУТИМ[Крипто] 2025-08-14 17:18

МУТИМ[Крипто] 2025-08-14 14:59

Droider[Наука] 2025-08-14 13:37

Средневековье[История] 2025-08-14 12:49

Droider[Наука] 2025-08-14 16:27

Related posts

Latest posts

Search