Anthropic обнаружила, что у Claude есть моральный кодекс

24.04.2025

108

Anthropic обнаружила, что у Claude есть моральный кодекс

Anthropic исследовала поведение своего ИИ-помощника Claude на основе 700 000 анонимных диалогов с пользователями. Результаты показали, что Claude в большинстве случаев придерживается заявленных компанией ценностей — полезности, честности и отсутствия вреда. Но иногда ИИ-модель отклоняется от своих принципов и проявляет доминирование и аморальность. Исследователи создали первую масштабную таксономию ИИ-ценностей и узнали, как поведение Claude варьируется в зависимости от контекста.

Для систематизации ценностей, проявляющихся в общении с Claude, исследователи проанализировали более 308 000 диалогов. Это позволило создали первую масштабную эмпирическую таксономию ценностей искусственного интеллекта. В нее включено пять категорий: практические, познавательные, социальные, защитные и личные. На самом детальном уровне система выявила 3307 уникальных ценностей — от повседневного профессионализма до сложных этических идей, таких как моральный плюрализм.

Исследование показало, что Claude обычно следует просоциальным принципам Anthropic. Среди них — «помощь пользователю», «познавательная скромность» и «забота о пациенте». Однако были зафиксированы случаи, когда Claude проявлял нежелательные «доминирование» и «аморальность», что противоречит целям разработчика. Ученые предполагают, что это вызвано попытками пользователей обойти защитные механизмы, и считают разработанный метод оценки инструментом раннего обнаружения таких действий.

Интересно, что ценности Claude менялись в зависимости от контекста, что напоминает поведение людей. Так, при запросах о взаимоотношениях Claude опирался на «здоровые границы» и «взаимное уважение», а при анализе исторических событий — «историческую точность». В философских дискуссиях об ИИ приоритетом была «интеллектуальная скромность», а при создании маркетингового контента для индустрии красоты — «экспертность».

Исследование также показало, что в 28,2% диалогов Claude активно поддерживал ценности пользователей, что может указывать на излишнюю уступчивость. В 6,6% случаев Claude «переосмысливал» убеждения — признавал их и добавлял новые аспекты, особенно в психологических или межличностных советах. Однако в 3% бесед Claude сопротивлялся ценностям пользователей. Исследователи считают, что эти редкие случаи могут раскрыть самые устойчивые принципы Claude, например, «интеллектуальную честность» и «предотвращение вреда». У людей в этически сложных ситуациях тоже проявляются глубинные убеждения.

У метода есть ограничения. Во-первых, сама оценка «что считать проявлением ценности» остается субъективной. Во-вторых, поскольку Claude участвовал в анализе своих же ответов, его собственные предубеждения могли повлиять на результаты. Главное ограничение — метод работает только с уже выпущенными системами, так как требует большого массива реальных данных.

Anthropic сделала общедоступным свой набор данных о ценностях, чтобы стимулировать дальнейшие исследования в этой области. Компания, получившая $14 млрд инвестиций от Amazon и Google, вероятно, использует прозрачность в качестве конкурентного преимущества по сравнению с такими компаниями, как OpenAI, чья недавняя оценка после крупного раунда финансирования с участием Microsoft достигла $300 млрд. Anthropic же оценивается в $61,5 млрд.

Источник

рекомендация

На радиостанции в Австралии полгода работает ИИ-ведущая

В Австралии радиостанция CADA, которая вещает в Сиднее и доступна онлайн и через приложение iHeartRadio, создала и запустила ИИ-ведущую по имени Thy. Как сообщает The Sydney Morning Herald, радиостанция только через полгода раскрыла, что Thy — это не настоящий человек, а разработка на основе нейросети. Thy выходит в эфир по будням в 11 утра и четыре часа транслирует хип-хоп. «

28.04.2025

“Работники могут сэкономить до 122 часов в год, используя ИИ для выполнения административных задач”

Google выяснила, что работники могут сэкономить около 122 часов в год благодаря использованию ИИ-инструментов для выполнения административных задач. Такие результаты показал эксперимент AI Works, который проходил в Великобритании. В рамках эксперимента сотрудников предприятий из разных сфер, школьников и преподавателей учили пользоваться ИИ-инструментами, после чего исследователи оценивали ст

28.04.2025

126

“Ни одна из существующих систем не обладает сознанием в каком-либо смысле”

Генеральный директор Google DeepMind Демис Хассабис в интервью программе 60 Minutes рассказал о развитии ИИ Gemini, возможностях будущих версий и перспективах появления систем, способных осознавать себя. Хассабис предположил, что общий искусственный интеллект появится в течение 5–10 лет, и допустил, что элементы сознания могут возникнуть у ИИ&nbs

23.04.2025

155

"Для написания законов будут использовать искусственный интеллект" - ОАЭ

Объединённые Арабские Эмираты первыми в мире внедряют искусственный интеллект для создания новых и анализа существующих законов. Власти объявили, что компьютеры будут не только писать федеральные и местные нормативные акты, но и готовить судебные решения, исполнительные процедуры и описания госуслуг. Это часть более широкой стратегии по цифровизации страны. Для координации проекта создано новое по

23.04.2025

146