Anthropic исследовала поведение своего ИИ-помощника Claude на основе 700 000 анонимных диалогов с пользователями. Результаты показали, что Claude в большинстве случаев придерживается заявленных компанией ценностей — полезности, честности и отсутствия вреда. Но иногда ИИ-модель отклоняется от своих принципов и проявляет доминирование и аморальность. Исследователи создали первую масштабную таксономию ИИ-ценностей и узнали, как поведение Claude варьируется в зависимости от контекста.
Для систематизации ценностей, проявляющихся в общении с Claude, исследователи проанализировали более 308 000 диалогов. Это позволило создали первую масштабную эмпирическую таксономию ценностей искусственного интеллекта. В нее включено пять категорий: практические, познавательные, социальные, защитные и личные. На самом детальном уровне система выявила 3307 уникальных ценностей — от повседневного профессионализма до сложных этических идей, таких как моральный плюрализм.