Учёные разработали подробную классификацию ценностей, выявив 3307 уникальных, которые варьируются от профессионализма до морального плюрализма, и разделили их на пять групп: практические, когнитивные, социальные, защитные и личные.
Claude, как правило, придерживается просоциальных принципов, но иногда отклоняется от них, что, вероятно, связано с попытками пользователей обойти его защитные механизмы. Новый метод оценки позволяет выявлять такие отклонения на ранних стадиях.
Ценности Claude адаптируются в зависимости от ситуации: он проявляет уважение в межличностных вопросах, историческую точность — в аналитических темах, интеллектуальную скромность — в философии и экспертность — в маркетинге. В 28,2% случаев он поддерживает ценности пользователей, иногда в избытке, в 6,6% — пересматривает их, а в 3% случаев — оспаривает их убеждения.
Этот метод имеет свои ограничения: оценка ценностей субъективна, поскольку Claude сам участвовал в анализе, что могло повлиять на итоговые результаты. Метод применим только к существующим системам. Anthropic открыла доступ к данным, подчеркивая свою прозрачность как конкурентное преимущество на фоне инвестиций в $14 миллиардов от Amazon и Google, пишет runews24.ru.