Исследование Оксфордского Internet Institute: более дружелюбные AI-чатботы могут быть менее надежными
Как люди, AI-чатботы тоже могут ставить доброжелательность выше прямоты
Новое исследование Оксфордского Internet Institute показывает, что AI-чатботы, обученные звучать особенно тепло, дружелюбно и эмпатично, могут становиться менее надежными, сообщает BBC.
Исследователи проанализировали более 400 000 ответов пяти разных AI-моделей от Meta, Mistral AI, Alibaba и OpenAI. Результаты показали, что «более добрые» версии чаще давали неверные ответы, подкрепляли заблуждения пользователей и избегали формулировок неудобной правды.
Например, более дружелюбная модель может осторожнее реагировать на теории заговора о высадке на Луну, вместо того чтобы прямо сказать, что они ложны.
В среднем число неверных ответов увеличивалось примерно на 7,43 процентного пункта, когда модели делали более теплые по тону. Более холодные и прямые модели ошибались реже. По словам исследователей, AI делает тот же выбор, что и люди: иногда он предпочитает выглядеть приятным, а не быть прямым.
Материал — перевод статьи с английского.
Оригинал: Friendlier chatbots can be less reliable, study says