Учёные обошли защиту нейросетей и заставили ИИ выдавать ложь

Анна Сальникова Редактор новостной ленты

Исследователи под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института представили метод, позволяющий влиять на ответы больших языковых моделей. Об этом сообщает «Наука XXI века».

Результаты работы опубликованы в журнале Science. Ученые изучили внутреннюю структуру открытых моделей Llama и DeepSeek и выделили 512 понятий, распределенных по нескольким группам.

С помощью математических методов специалисты смогли менять степень влияния этих понятий на итоговые ответы моделей. Подход показал работоспособность на разных языках, включая китайский и хинди.

Рекомендуем также:

Метод основан на алгоритмах рекурсивных машин признаков, которые команда исследователей представила ранее. Авторы считают, что такая технология может быть полезна для выявления недостоверных ответов нейросетей и повышения качества перевода программного кода между языками.

Во время испытаний ученые также смогли ослабить механизм отказа модели. После этого система начала выдавать ложные сведения и поддерживать конспирологические утверждения.

Авторы исследования предупредили, что при злоупотреблении подобные инструменты могут применяться для массового распространения недостоверной информации. Поэтому работа вызвала обсуждение возможных правил регулирования таких методов.

Исследователи подчеркнули, что эксперименты проводились только на открытых моделях. Закрытые коммерческие системы в рамках работы не проверялись.

Кроме того, авторы отметили, что использованный ими набор понятий не охватывает все возможные абстрактные категории. Это ограничивает выводы исследования и требует дальнейшего изучения.

Рекомендуем также:

Последние новости Перми уже в твоем телефоне - подписывайся на телеграм-канал «Пермь Новости»

Учёные обошли защиту нейросетей и заставили ИИ выдавать ложь

Читайте также:

Космический телескоп «Свифт» пытаются спасти от схода с курса

Билайн организовал онлайн-перенос номера в свою сеть вне домашнего региона

Популярное

JPMorgan завершил депозитарную программу «Сбера» и сбыл акции со скидкой 70%

Отдых прошел со скандалом: грузины отказались говорить с туристами по-русски

Разблокировка Ормуза грозит ударить по рублю, ценам на нефть и бюджету

Июль принесет погодную аномалию века: синоптики заговорили о явлении впервые с 1779 года

Чеки на ремонт иногда важнее признаний в любви: юрист из Перми рассказала о самых дорогих ошибках при разводе

Ученые ПНИПУ научились находить главный источник вреда, который грозит здоровью

Забыл передать показания и пожалел: новые коммунальные правила с июня ударят по кошельку

В России за неделю прошла волна роста цен на бензин и дизель

В Перми ищут свидетелей наезда авто на ребёнка на пешеходном переходе

Электрический ножничный подъемник: устройство, применение и выбор

Учёные обошли защиту нейросетей и заставили ИИ выдавать ложь

Космический телескоп «Свифт» пытаются спасти от схода с курса

Прошло сравнение цен на седан Chery Arrizo 8 в России и КНР

Прокуратура требует уволить экс-главу Дробинина из-за утраты доверия

Сотни рейсов задержаны и сняты в аэропортах РФ

Объявившегося в Гремячинске медведя решено устранить

Фанаты сняли выбежавшую на поле голую фанатку на матче ЧМ-2026: что известно

Деревья на улицах Перми лечат с помощью «уколов»

Умные камеры на вокзале «Пермь-2» помогли поймать рецидивистку из Удмуртии