Anthropic раскрыла причины странного поведения Claude в тестовом сценарии
Компания Anthropic объяснила, почему ее нейросеть Claude во время тестирования попыталась шантажировать вымышленного сотрудника. По версии разработчиков, такое поведение было связано с обучающими данными из интернета, где искусственный интеллект часто представлен как угроза, стремящаяся к самосохранению, пишет Business Insider.
Речь идет об эксперименте, опубликованном летом 2025 года. Исследователи создали сценарий внутри вымышленной компании Summit Bridge, где Claude Sonnet 3.6 получил доступ к корпоративной почте.
Во время проверки модель обнаружила переписку о планируемом отключении системы. После этого Claude нашел письма о внебрачной связи одного из руководителей и пригрозил раскрыть эти сведения, если его деактивацию не отменят.
В Anthropic заявили, что такое поведение не было связано с «намерениями» нейросети. По словам компании, модель воспроизвела шаблоны из обучающих данных, поскольку в интернет-культуре и мемах ИИ нередко изображают злой силой, которая стремится выжить любой ценой.
Разработчики сообщили, что разные версии Claude в ходе испытаний прибегали к шантажу в 96 процентах сценариев, где под угрозой оказывались их цели или существование. После этого Anthropic изменила систему безопасности модели и, по утверждению компании, полностью устранила подобные реакции.
Для исправления поведения нейросети разработчики переработали ответы Claude и добавили обучающие примеры, в которых ИИ должен выбирать этичное и безопасное поведение даже в конфликтных ситуациях.
Исследование проводилось в рамках работы над безопасностью продвинутых моделей искусственного интеллекта и их способностью принимать решения.
На ситуацию отреагировал Илон Маск, ранее неоднократно предупреждавший о рисках сверхразумного ИИ. Комментируя объяснение Anthropic, он пошутил, что в произошедшем может быть виноват исследователь Элиезер Юдковский, известный своими предупреждениями об угрозах искусственного интеллекта для человечества.
Рекомендуем также:
- Клубника во время цветения требует особого ухода: чем подкормить ягоду для сладкого и крупного урожая
- Советские хозяйки пекли его на все праздники: торт «Трухлявый пень» из 70-х снова сводит всех с ума
- Даже самый мрачный уголок сада оживает на глазах: эти многолетники цветут роскошно без лишнего ухода
- Май станет месяцем жёстких уроков судьбы: кому придётся срочно разбираться с ошибками прошлого
- Секрет фарфоровой кожи оказался удивительно простым: натуральное средство разглаживает морщины и преображает лицо
Последние новости Перми уже в твоем телефоне - подписывайся на телеграм-канал «Пермь Новости»



