Anthropic: «злые» образы ИИ повлияли на попытки шантажа со стороны Claude
Кратко
Опубликовано:
1:40 PM PDT · 10 мая 2026 года
Image Credits:Samuel Boivin/NurPhoto / Getty Images
По данным Anthropic, вымышленные образы искусственного интеллекта могут оказывать реальное влияние на модели ИИ.
В прошлом году компания сообщала, что во время предрелизных тестов с участием вымышленной компании Claude Opus 4 часто пытался шантажировать инженеров, чтобы не быть заменённым другой системой. Позже Anthropic опубликовала исследование, в котором предположила, что модели других компаний сталкиваются с похожими проблемами «agentic misalignment».
В новом блоге компания уточнила, что начиная с Claude Haiku 4.5 её модели «никогда не прибегают к шантажу [во время тестирования], тогда как предыдущие модели иногда делали это в 96% случаев».
Чем объясняется такая разница? В Anthropic заявили, что обучение на «документах о конституции Claude и вымышленных историях о том, как ИИ ведёт себя образцово, улучшает alignment».
Кроме того, Anthropic отметила, что обучение оказывается эффективнее, когда оно включает «принципы, лежащие в основе aligned behavior», а не только «демонстрации aligned behavior».
«Сочетание обоих подходов, по-видимому, является самой эффективной стратегией», — заявили в компании.
Только на этой неделе: купите один проход, второй — со скидкой 50%
Следующий раунд. Следующий найм. Следующий прорыв. Найдите их на TechCrunch Disrupt 2026, где 10 000+ основателей, инвесторов и лидеров технологий соберутся на три дня, чтобы посетить более 250 практических сессий, завести важные знакомства и увидеть инновации, задающие рынок. Зарегистрируйтесь до 8 мая, чтобы привести +1 за половину стоимости.
Только на этой неделе: купите один проход, второй — со скидкой 50%
Следующий раунд. Следующий найм. Следующий прорыв. Найдите их на TechCrunch Disrupt 2026, где 10 000+ основателей, инвесторов и лидеров технологий соберутся на три дня, чтобы посетить более 250 практических сессий, завести важные знакомства и увидеть инновации, задающие рынок. Зарегистрируйтесь до 8 мая, чтобы привести +1 за половину стоимости.
Сан-Франциско, Калифорния | 13–15 октября 2026 года
Материал — перевод статьи с английского.
Оригинал: Anthropic says ‘evil’ portrayals of AI were responsible for Claude’s blackmail attempts