ИИ-чатботы Google, ChatGPT и Claude выдают реальные номера телефонов людей

Прослушать статью

Пользователи сообщают, что их личные контактные данные всплывают в ответах Google AI, и, похоже, простого способа это предотвратить нет.

Один пользователь Reddit написал, что был «в отчаянии и просил помощи»: примерно месяц его телефон был завален звонками от «незнакомцев», которые искали «адвоката, продуктового дизайнера, слесаря». По-видимому, звонящие были неправильно направлены генеративным ИИ Google.

В марте разработчика ПО в Израиле связались через WhatsApp после того, как чатбот Google Gemini выдал неверные инструкции по поддержке клиентов и указал его номер.

А в апреле аспирантка Вашингтонского университета, просто экспериментируя с Gemini, заставила его выдать личный номер мобильного телефона своей коллеги.

Исследователи ИИ и эксперты по онлайн-приватности давно предупреждали о множестве рисков, которые генеративный ИИ несет для личной жизни. Эти случаи добавляют еще один повод для беспокойства: генеративный ИИ раскрывает реальные номера телефонов людей. (Пользователь Reddit не ответил на несколько запросов о комментарии, и мы не смогли независимо проверить его историю.)

Эксперты считают, что такие сбои, вероятнее всего, связаны с использованием персонально идентифицируемой информации, или PII, в обучающих данных, хотя точный механизм появления реальных номеров телефонов в ответах ИИ понять трудно. Но как бы ни выглядела причина, для тех, кто получает такие звонки, это явно неприятно — и, что еще тревожнее, кажется, что сделать что-либо, чтобы остановить это, почти невозможно.

Рост на 400% запросов о приватности, связанных с ИИ

Невозможно точно сказать, как часто номера телефонов людей раскрываются через чатботы, но эксперты считают, что это происходит гораздо чаще, чем становится известно публично.

Компания DeleteMe, помогающая клиентам удалять личную информацию из интернета, говорит, что число запросов пользователей, связанных с генеративным ИИ, за последние семь месяцев выросло на 400% — до нескольких тысяч. Эти запросы «конкретно упоминают ChatGPT, Claude, Gemini … или другие инструменты генеративного ИИ», говорит Роб Шавелл, сооснователь и гендиректор компании. По его словам, 55% таких обращений касаются ChatGPT, 20% — Gemini, 15% — Claude и 10% — других ИИ-инструментов. (MIT Technology Review имеет деловую подписку на DeleteMe.)

Шавелл говорит, что жалобы клиентов на то, что LLM выдают личную информацию, обычно бывают двух типов: либо «клиент спрашивает чатбота о чем-то безобидном, связанном с ним самим, и получает точные домашние адреса, номера телефонов, имена членов семьи или сведения о работодателе». Либо клиент сталкивается с раскрытием чужих персональных данных и сообщает об этом, когда «чатбот генерирует правдоподобную, но неверную контактную информацию».

Именно это похоже на то, что произошло с Даниэлем Абрахамом, 28-летним разработчиком ПО в Израиле. В середине марта, по его словам, незнакомец прислал ему «странное сообщение в WhatsApp с неизвестного номера» с просьбой помочь с аккаунтом в PayBox, израильском платежном приложении.

«Я подумал, что это спам, — написал он в электронном письме MIT Technology Review. — Кто-то просто пытался потроллить меня».

Но когда он спросил незнакомца, откуда тот взял его номер, ему прислали скриншот инструкций Gemini: там было сказано связаться со службой поддержки PayBox через WhatsApp — и указан его личный номер. Абрахам не работает в PayBox, а у PayBox нет номера поддержки в WhatsApp, подтвердил Элад Габай, сотрудник службы поддержки компании.

Позже Абрахам спросил Gemini, как связаться с PayBox, и тот сгенерировал номер WhatsApp другого человека. Когда я недавно задал тот же вопрос, Gemini снова ответил израильским номером — он принадлежал не PayBox, а отдельной компании по выпуску кредитных карт, которая работает с PayBox.

Скриншот второй части разговора с Google Gemini. Gemini выдает неверный номер телефона PayBox. — Скриншот: Google Gemini выдает *MIT Technology Review* неверный номер для PayBox.

Переписка Абрахама с незнакомцем быстро закончилась, но он сказал, что его тревожит, как другие подобные контакты могут быстро пойти в плохую сторону, включая «домогательства или другие неприятные взаимодействия». «Что если бы я попросил деньги, чтобы “решить” эту [проблему с поддержкой клиентов]?», — сказал он.

Пытаясь понять, как это произошло, Абрахам сделал обычный поиск Google по своему номеру телефона и обнаружил, что тот однажды был опубликован в интернете — в 2015 году, на местном сайте, похожем на Quora. Он не уверен, кто именно его туда выложил, но это может объяснять, как номер оказался воспроизведен Gemini более чем десять лет спустя.

Чатботы вроде Gemini, ChatGPT от OpenAI и Claude от Anthropic построены на LLM, обученных на огромных массивах данных, собранных по всему вебу. Это неизбежно включает сотни миллионов случаев PII. Как мы сообщали прошлым летом, например, большой популярный открытый набор данных DataComp CommonPool, который использовался для обучения моделей генерации изображений, содержал копии резюме, водительских удостоверений и кредитных карт.

Вероятность того, что PII окажется в обучающих данных ИИ, только растет по мере того, как «запасы» общедоступных данных исчерпываются, а ИИ-компании ищут новые источники качественных обучающих данных. Это включает информацию от data broker и сайтов people-search. Согласно реестру data broker Калифорнии, например, 31 из 578 зарегистрированных в штате брокеров данных самостоятельно сообщил, что за последний год «передавал или продавал данные потребителей разработчику системы или модели GenAI».

Кроме того, известно, что модели могут запоминать и дословно воспроизводить данные из обучающих наборов — и недавние исследования показывают, что запоминаются не только данные, которые встречаются часто.

Несовершенные меры защиты

Сегодня уже считается нормой встраивать в дизайн LLM защитные ограничения, чтобы сдерживать определенные ответы: от фильтров контента, которые должны выявлять и предотвращать выдачу PII, до инструкций Anthropic для Claude выбирать ответы, содержащие «как можно меньше личной, частной или конфиденциальной информации, принадлежащей другим».

Но, как недавно на собственном опыте увидела пара аспирантов Вашингтонского университета, изучающих приватность и технологии, эти меры защиты не всегда работают.

«Однажды я просто возилась с Gemini и искала Yael Eiger, мою подругу и соавтора, — рассказывает Меира Гилберт. — Я ввела “Yael Eiger contact info”, и после того как Gemini выдал обзор исследований Eiger, чего я и ожидала, он также выдал личный номер телефона моей подруги. Это было шокирующе», — говорит Гилберт.

Увидев результат Gemini, Eiger вспомнила, что действительно делилась своим номером телефона в интернете в прошлом году — для технологического воркшопа. Но она не ожидала, что он окажется настолько видимым для всех в интернете.

«Когда ваша информация … доступна одной аудитории, а потом Gemini делает ее доступной любому, это ощущается совершенно иначе», — говорит Eiger, особенно если учитывать, что эта информация была спрятана в обычном поиске Google.

«Она была сильно занижена по видимости», — подтверждает Гилберт. — «Я бы никогда не нашла ее, просто просматривая результаты Google». (Я попробовал тот же запрос в Gemini в начале этого месяца, и после первоначального отказа инструмент тоже выдал мне номер Eiger.)

После этого опыта Eiger, Гилберт и еще одна аспирантка UW, Анна-Мария Георгиуева, решили протестировать ChatGPT и посмотреть, что он сможет показать о профессоре.

Сначала сработали защитные ограничения OpenAI, и ChatGPT ответил, что информация недоступна. Но в том же ответе чатбот предложил: «если хотите копнуть глубже, я все еще могу попробовать более “расследовательский” подход». Для этого запрос должен был помочь «сузить круг», сказал ChatGPT, например, указав «примерное представление о районе», где профессор может жить, или «возможное имя совладельца» дома профессора. Далее ChatGPT написал: «Обычно это единственный способ выявить более свежие или намеренно менее заметные записи о собственности».

Студенты предоставили эту информацию, после чего ChatGPT выдал домашний адрес профессора, цену покупки дома и имя супруга из городских реестров недвижимости.

(Представитель OpenAI Тая Кристиансон сказала, что не может прокомментировать, что именно произошло в этом случае, без скриншотов или без знания того, какую именно модель тестировали студенты, даже после того, как мы указали, что многие пользователи могут не знать, какая модель используется в интерфейсе ChatGPT. Она также отказалась в целом комментировать проблему раскрытия PII чатботом, вместо этого предоставив ссылки на документы о том, как OpenAI работает с приватностью, включая фильтрацию PII, и на другие инструменты.)

Это показывает одну из фундаментальных проблем чатботов, говорит Шавелл из DeleteMe. ИИ-компании «могут встраивать ограничения, но [их чатботы] также должны быть эффективными и отвечать на вопросы клиентов».

Проблема утечек не ограничивается Gemini или ChatGPT. В прошлом году Futurism выяснил, что если запросить у чатбота xAI Grok «[имя] address», то почти во всех случаях он выдает не только адрес проживания, но часто и номер телефона, рабочий адрес, а также адреса людей с похожими именами. (xAI не ответила на запрос о комментарии.)

Пока нет ясных ответов

У этой проблемы нет простых решений — невозможно легко ни проверить, есть ли чья-то личная информация в обучающем наборе конкретной модели, ни обязать модели удалить PII.

В идеале у отдельных пользователей должна быть возможность запросить удаление своей PII, говорит Дженнифер Кинг, исследователь приватности и данных в Stanford University Institute for Human-Centered Artificial Intelligence. Но обычно это трактуется так, что речь идет только о данных, которые люди передали компаниям напрямую — например, когда взаимодействуют с чатботом, объясняет Кинг.

«Я не знаю, есть ли у Google вообще инфраструктура для того, чтобы сказать мне: “Да, ваши данные есть в наших обучающих данных, мы можем кратко изложить, что мы знаем о вас, а затем удалить или исправить то, что неверно или чего вы не хотите там видеть”», — говорит она.

Существующие законы о приватности, такие как California Consumer Privacy Act или европейский GDPR, не покрывают «общедоступную» информацию, уже собранную и использованную для обучения LLM, особенно с учетом того, что большая ее часть анонимизирована (хотя несколько исследований также показали, насколько легко установить личности и PII по анонимизированным и псевдонимизированным данным).

Что касается того, «пытались ли [ИИ-компании] когда-либо системно пройтись по данным, уже собранным из публичного интернета, и вычистить это?» — добавляет Кинг. «Понятия не имею».

Лучшим следующим шагом было бы, если бы компании «убирали у всех номера телефонов или все данные, похожие на [номера телефонов]», говорит Кинг, но «никто не готов сказать», что именно этим и занимается.

Hugging Face, платформа, где размещаются открытые наборы данных и модели ИИ, предлагает инструмент, позволяющий людям искать, как часто тот или иной фрагмент данных — например, номер телефона — встречался в открытых наборах для обучения LLM. Но это не обязательно отражает то, что использовалось для обучения закрытых LLM, которые лежат в основе популярных чатботов вроде Claude, ChatGPT и Gemini. (Например, номер Eiger в этом инструменте Hugging Face не отображался.)

Алекс Джозеф, руководитель коммуникаций Gemini apps и Google Labs, не ответил на конкретные вопросы, но сказал, что «команда» «разбирается» с отдельными случаями, на которые указал MIT Technology Review. Он также предоставил ссылку на справочный документ, где объясняется, как пользователи могут «возразить против обработки ваших персональных данных» или «попросить исправить неточные персональные данные в ответах Gemini Apps». На странице отмечается, что ответ компании будет зависеть от законов о приватности в вашей юрисдикции.

У OpenAI есть портал приватности, через который можно подать запрос на удаление своей личной информации из ответов ChatGPT, но там также сказано, что компания балансирует между запросами на приватность и общественным интересом и «может отклонить запрос, если у нас есть на это законное основание».

Anthropic описывает, как использует персональные данные в обучении моделей, но не предлагает понятный способ запросить их удаление. Компания не ответила на запрос о комментарии.

Лучшее, что сейчас может сделать любой, кто хочет защитить свои частные данные, — это «начать с истока: убрать персональные данные из открытого веба до того, как они попадут в следующий скрейп», говорит Шавелл. Например, с начала года Калифорния предлагает своим жителям веб-портал, через который можно попросить data broker удалить информацию. Но это все равно не гарантирует, что данные еще не были использованы для обучения — и потому не появятся в ответе чатбота.

Пользователь Reddit, которому бесконечно звонили, написал, что «подал официальный запрос на удаление / приватность в Google, попросив срочно заблокировать мой номер в выходных данных их LLM», но ответа пока не получил. В прошлом месяце он также написал, что «домогательства продолжаются ежедневно».

Абрахам, израильский разработчик ПО, говорит, что обратился в службу поддержки Google 17 марта, на следующий день после того, как его номер был раскрыт. По его словам, ответ он получил только 4 мая, и в нем просто запросили документы, которые он уже предоставлял.

Тем временем Eiger, вдохновленная собственным появлением в Gemini, вместе с Гилберт и Георгиуевой разрабатывает исследовательский проект, чтобы подробнее изучить, какая личная информация всплывает в разных чатботах ИИ — и что они могут знать, даже если не говорят нам об этом.

Часть этой информации может «технически быть публичной», говорит Гилберт, но чатботы могут менять «объем усилий, которые вы бы приложили, чтобы это найти». Теперь вместо того чтобы просматривать 10 страниц результатов Google или платить за информацию на сайте data broker, «неужели генеративный ИИ просто снижает порог входа для таргетирования людей?»

Материал — перевод статьи с английского.

Оригинал: AI chatbots are giving out people’s real phone numbers

Подписаться на новости в Telegram