Учёные обошли защиту нейросетей и заставили ИИ выдавать ложь
Исследователи под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института представили метод, позволяющий влиять на ответы больших языковых моделей. Об этом сообщает «Наука XXI века».
Результаты работы опубликованы в журнале Science. Ученые изучили внутреннюю структуру открытых моделей Llama и DeepSeek и выделили 512 понятий, распределенных по нескольким группам.
С помощью математических методов специалисты смогли менять степень влияния этих понятий на итоговые ответы моделей. Подход показал работоспособность на разных языках, включая китайский и хинди.
Рекомендуем также:
- Белоснежные монетки среди изумрудной зелени: этот многолетник успеет украсить сад уже через месяц
- Эта закуска не доживает до тарелки: быстрые рулетики из лаваша с сыром и колбасой съедают моментально
Метод основан на алгоритмах рекурсивных машин признаков, которые команда исследователей представила ранее. Авторы считают, что такая технология может быть полезна для выявления недостоверных ответов нейросетей и повышения качества перевода программного кода между языками.
Во время испытаний ученые также смогли ослабить механизм отказа модели. После этого система начала выдавать ложные сведения и поддерживать конспирологические утверждения.
Авторы исследования предупредили, что при злоупотреблении подобные инструменты могут применяться для массового распространения недостоверной информации. Поэтому работа вызвала обсуждение возможных правил регулирования таких методов.
Исследователи подчеркнули, что эксперименты проводились только на открытых моделях. Закрытые коммерческие системы в рамках работы не проверялись.
Кроме того, авторы отметили, что использованный ими набор понятий не охватывает все возможные абстрактные категории. Это ограничивает выводы исследования и требует дальнейшего изучения.
Рекомендуем также:
Последние новости Перми уже в твоем телефоне - подписывайся на телеграм-канал «Пермь Новости»



