Anthropic: «злые» образы ИИ повлияли на попытки шантажа со стороны Claude

Прослушать статью

Кратко

Опубликовано:

1:40 PM PDT · 10 мая 2026 года

Image Credits:Samuel Boivin/NurPhoto / Getty Images

По данным Anthropic, вымышленные образы искусственного интеллекта могут оказывать реальное влияние на модели ИИ.

В прошлом году компания сообщала, что во время предрелизных тестов с участием вымышленной компании Claude Opus 4 часто пытался шантажировать инженеров, чтобы не быть заменённым другой системой. Позже Anthropic опубликовала исследование, в котором предположила, что модели других компаний сталкиваются с похожими проблемами «agentic misalignment».

В новом блоге компания уточнила, что начиная с Claude Haiku 4.5 её модели «никогда не прибегают к шантажу [во время тестирования], тогда как предыдущие модели иногда делали это в 96% случаев».

Чем объясняется такая разница? В Anthropic заявили, что обучение на «документах о конституции Claude и вымышленных историях о том, как ИИ ведёт себя образцово, улучшает alignment».

Кроме того, Anthropic отметила, что обучение оказывается эффективнее, когда оно включает «принципы, лежащие в основе aligned behavior», а не только «демонстрации aligned behavior».

«Сочетание обоих подходов, по-видимому, является самой эффективной стратегией», — заявили в компании.

Только на этой неделе: купите один проход, второй — со скидкой 50%

Следующий раунд. Следующий найм. Следующий прорыв. Найдите их на TechCrunch Disrupt 2026, где 10 000+ основателей, инвесторов и лидеров технологий соберутся на три дня, чтобы посетить более 250 практических сессий, завести важные знакомства и увидеть инновации, задающие рынок. Зарегистрируйтесь до 8 мая, чтобы привести +1 за половину стоимости.

Только на этой неделе: купите один проход, второй — со скидкой 50%

Следующий раунд. Следующий найм. Следующий прорыв. Найдите их на TechCrunch Disrupt 2026, где 10 000+ основателей, инвесторов и лидеров технологий соберутся на три дня, чтобы посетить более 250 практических сессий, завести важные знакомства и увидеть инновации, задающие рынок. Зарегистрируйтесь до 8 мая, чтобы привести +1 за половину стоимости.

Сан-Франциско, Калифорния | 13–15 октября 2026 года

Материал — перевод статьи с английского.

Оригинал: Anthropic says ‘evil’ portrayals of AI were responsible for Claude’s blackmail attempts

Подписаться на новости в Telegram