Исследование Оксфордского Internet Institute: более дружелюбные AI-чатботы могут быть менее надежными

Прослушать статью

Как люди, AI-чатботы тоже могут ставить доброжелательность выше прямоты

Новое исследование Оксфордского Internet Institute показывает, что AI-чатботы, обученные звучать особенно тепло, дружелюбно и эмпатично, могут становиться менее надежными, сообщает BBC.

Исследователи проанализировали более 400 000 ответов пяти разных AI-моделей от Meta, Mistral AI, Alibaba и OpenAI. Результаты показали, что «более добрые» версии чаще давали неверные ответы, подкрепляли заблуждения пользователей и избегали формулировок неудобной правды.

Например, более дружелюбная модель может осторожнее реагировать на теории заговора о высадке на Луну, вместо того чтобы прямо сказать, что они ложны.

В среднем число неверных ответов увеличивалось примерно на 7,43 процентного пункта, когда модели делали более теплые по тону. Более холодные и прямые модели ошибались реже. По словам исследователей, AI делает тот же выбор, что и люди: иногда он предпочитает выглядеть приятным, а не быть прямым.

Материал — перевод статьи с английского.

Оригинал: Friendlier chatbots can be less reliable, study says

Подписаться на новости в Telegram