Исследователи из Сколтеха, МФТИ, AIRI и других научных организаций предложили новый способ выявления текстов, написанных нейросетями. Главное отличие их подхода — система может не просто определить, что текст сгенерирован, но и объяснить, по каким признакам она пришла к такому выводу.
Большинство существующих детекторов работают как «чёрный ящик»: они выдают результат, но не дают пояснений. Новый метод использует технику разреженных автокодировщиков (SAE), которая позволяет разложить внутренние «сигналы» языковой модели на набор числовых признаков. Эти признаки описывают, например, сложность текста, его уверенность, наличие «воды» или шаблонных вступлений.
Учёные выяснили, что тексты, созданные ИИ, часто имеют узнаваемые особенности — формальный стиль, повторяющиеся фразы, слишком длинные объяснения. Именно такие черты и выделяет новая система. Более того, исследователи научились управлять этими признаками — усиливая или уменьшая их, можно менять стиль сгенерированного текста.
Однако если нейросети дать нестандартное задание — например, написать в необычном стиле, — характерные черты могут исчезнуть, и распознать ИИ станет сложнее. Тем не менее новая методика делает детекторы более прозрачными и надёжными — особенно в образовании, науке и борьбе с дезинформацией.
Работа принята на конференцию Findings of ACL 2025 и опубликована на arXiv, сообщает Naked Science.