OpenAI о безопасности сообщества в ChatGPT: модерация, защита от злоупотреблений и поддержка в кризисных ситуациях

Прослушать статью

Массовые расстрелы, угрозы в адрес государственных чиновников, попытки взрывов и нападения на сообщества и отдельных людей — недопустимая и крайне тяжёлая реальность сегодняшнего мира. Эти инциденты напоминают о том, насколько реальна угроза насилия и как быстро намерение причинить вред может перейти от слов к действиям.

Люди могут приносить такие события и переживания в ChatGPT. Они могут задавать вопросы о новостях, пытаться понять, что произошло, выражать страх или гнев, а также говорить о насилии в вымышленных, исторических, политических, личных или потенциально опасных контекстах. Мы учим ChatGPT различать такие случаи и проводить границу, когда разговор начинает смещаться к угрозам, потенциальному вреду для других или планированию в реальном мире.

Мы рассказываем о том, что делаем, чтобы свести к минимуму использование наших сервисов в целях насилия или иного вреда: как наши модели обучаются безопасно отвечать, как наши системы выявляют потенциальный риск вреда и какие меры мы принимаем, когда кто-то нарушает наши правила. Мы постоянно улучшаем наши шаги по защите людей и сообществ, опираясь на рекомендации психологов, психиатров, экспертов по гражданским свободам и правоохранительным органам, а также других специалистов, которые помогают нам принимать непростые решения в вопросах безопасности, приватности и демократизированного доступа.

Как мы снижаем риски вреда в ChatGPT.

Мы обучаем наши модели отказывать в запросах на инструкции, тактики или планирование, которые могут существенно облегчить насилие. При этом люди могут задавать нейтральные вопросы о насилии по фактическим, историческим, образовательным или профилактическим причинам, и мы стремимся допускать такие обсуждения, сохраняя чёткие границы безопасности — например, не предоставляя подробных, операционных инструкций, которые могут способствовать вреду. Граница между безобидным и вредоносным использованием может быть тонкой, поэтому мы постоянно дорабатываем наш подход и работаем с экспертами, чтобы различать безопасные, ограниченные ответы и шаги, пригодные для совершения насилия или иного вреда в реальном мире.

В рамках этой работы мы продолжаем расширять наши защитные механизмы, чтобы ChatGPT лучше распознавал тонкие признаки риска вреда в разных контекстах. Некоторые риски становятся очевидны только со временем: одно сообщение само по себе может выглядеть безобидным, но более широкий паттерн в длинном разговоре или в нескольких разговорах может указывать на нечто более тревожное. Опираясь на многолетнюю работу в области обучения моделей, оценок и red teaming, а также на постоянные экспертные рекомендации, мы усилили то, как ChatGPT распознаёт тонкие предупреждающие сигналы в длинных, высокорисковых разговорах и осторожно на них реагирует. Подробнее об этой работе мы расскажем в ближайшие недели.

Наша работа по безопасности также распространяется на ситуации, когда пользователи могут находиться в состоянии сильного стресса или риска самоповреждения. В такие моменты наша цель — не допустить содействия вредным действиям и одновременно помочь разрядить ситуацию и направить человека к поддержке в реальном мире. ChatGPT показывает локализованные кризисные ресурсы, рекомендует обратиться к специалистам по психическому здоровью или к доверенным близким, а в самых серьёзных случаях советует немедленно обратиться за экстренной помощью.

Как мы отслеживаем соблюдение правил и применяем меры.

Мы исходим из лучших намерений наших пользователей, но когда обнаруживаем, что кто-то пытается использовать наши инструменты, чтобы потенциально спланировать или совершить насилие, мы принимаем меры, включая отзыв доступа к сервисам OpenAI. Наши Usage Policies задают чёткие ожидания относительно допустимого использования и позволяют нам запрещать использование сервиса для угроз, запугивания, домогательств, терроризма или насилия, разработки оружия, незаконной деятельности, уничтожения имущества или систем, а также попыток обойти наши защитные механизмы. Мы серьёзно относимся к этим правилам и прилагаем большие усилия для их соблюдения.

Мы используем автоматизированные системы обнаружения, чтобы выявлять потенциально тревожную активность в масштабе. Эти системы анализируют пользовательский контент и поведение с помощью набора инструментов, предназначенных для выявления сигналов, которые могут указывать на нарушения правил или вредоносную активность, включая классификаторы, модели рассуждения, технологии hash-matching, blocklists и другие системы мониторинга.

Когда аккаунт или разговор помечается как требующий проверки, его в контексте оценивают специально обученные сотрудники. Эти рецензенты обучены нашим правилам и протоколам и работают в рамках установленных защит приватности и безопасности, то есть их доступ к пользовательской информации ограничен, осуществляется в защищённых системах и подчиняется требованиям конфиденциальности и защиты данных. Их задача — оценить помеченную активность в контексте, включая содержание взаимодействия, окружающий разговор и любые релевантные паттерны поведения с течением времени. Такой контекстный обзор важен, потому что автоматизированные системы могут выявлять сигналы потенциальной проблемы, не полностью улавливая намерение или нюансы.

Цель состоит в том, чтобы определить, нарушает ли помеченная активность наши правила и/или указывает ли на то, что пользователь может совершить акт насилия, требует ли она эскалации для более детальной проверки человеком или может быть отклонена либо отнесена к более низкому приоритету как низкорисковая или не нарушающая правила. Когда мы определяем, что произошло нарушение, влекущее бан, мы стремимся немедленно отозвать доступ к сервисам OpenAI. Это может включать отключение аккаунта, блокировку других аккаунтов того же пользователя и меры по выявлению и пресечению создания новых аккаунтов. У нас действует политика нулевой терпимости к использованию наших инструментов для содействия совершению насилия. Пользователи могут обжаловать меры принудительного характера, и мы рассматриваем эти апелляции, чтобы подтвердить итоговое решение.

Мы предлагаем поддержку в реальном мире и при необходимости обращаемся в правоохранительные органы.

Большинство мер принудительного характера, включая баны за насилие, принимаются напрямую между OpenAI и пользователем, чтобы было ясно, что человек перешёл черту. Но в некоторых чувствительных случаях мы можем связаться с другими сторонами, которые лучше всего способны помочь.

Если мы считаем, что случай содержит признаки потенциально серьёзного вреда в реальном мире, он передаётся на более глубокое расследование, включая оценку общего уровня риска по структурированным критериям. Этот этап предназначен лишь для ограниченного круга случаев и нужен, чтобы сценарии с более высоким риском оценивались с дополнительным контекстом и экспертной поддержкой. Когда разговоры указывают на неминуемый и достоверный риск вреда для других, мы уведомляем правоохранительные органы. Эксперты в области психического здоровья и поведения помогают нам оценивать сложные случаи, а критерии направления остаются гибкими, чтобы учитывать тот факт, что пользователь может не обсуждать в разговоре с ChatGPT цель, средства и сроки запланированного насилия, но при этом риск неминуемого и достоверного насилия всё равно может существовать.

Прошлой осенью мы представили Parental Controls, чтобы помочь семьям настраивать работу ChatGPT в доме. Parental controls позволяют родителям связать свой аккаунт с аккаунтом подростка и настроить параметры для безопасного, соответствующего возрасту опыта. У родителей нет доступа к разговорам подростка, а в редких случаях, когда наши системы и обученные рецензенты обнаруживают возможные признаки острого кризиса, родители могут получить уведомление — но только с той информацией, которая нужна для поддержки безопасности подростка. Уведомления родителям автоматически отправляются по email, SMS, push-уведомлению или по всем трём каналам сразу.

Тесно работая с экспертами из нашего Council on Well-Being and AI и нашей Global Physicians Network, мы вскоре также представим функцию trusted contact, которая позволит взрослым пользователям назначать человека, получающего уведомления в тех случаях, когда им может понадобиться дополнительная поддержка.

Мы учимся, улучшаем и корректируем курс.

Мы продолжаем усиливать наши модели, методы обнаружения, процессы проверки и критерии эскалации в ответ на наблюдаемое использование, возникающие риски и рекомендации внутренних и внешних экспертов. Особое внимание мы уделяем сложным случаям: например, когда неясно, является ли конкретный ввод легитимным или несёт риск вреда; когда предпринимаются изощрённые попытки обойти защитные механизмы; или когда люди неоднократно пытаются злоупотреблять нашими сервисами. Мы продолжим ставить безопасность в приоритет, соблюдая баланс с приватностью и другими гражданскими свободами, чтобы иметь возможность действовать в отношении серьёзных рисков.

Материал — перевод статьи с английского.

Оригинал: Our commitment to community safety

Подписаться на новости в Telegram

OpenAI о безопасности сообщества в ChatGPT: модерация, защита от злоупотреблений и поддержка в кризисных ситуациях

Как мы снижаем риски вреда в ChatGPT.

Как мы отслеживаем соблюдение правил и применяем меры.

Мы предлагаем поддержку в реальном мире и при необходимости обращаемся в правоохранительные органы.

Мы учимся, улучшаем и корректируем курс.

Больше записей

OpenAI о безопасности сообщества в ChatGPT: модерация, защита от злоупотреблений и поддержка в кризисных ситуациях

Bed Bath & Beyond предупредила о значительном сокращении штата из-за AI

Citi назначила бывшего руководителя Google Брайана Салуццо директором по информационным технологиям

Amazon уже предлагает новые продукты OpenAI в AWS