Сегодня OpenAI выпускает Privacy Filter — open-weight модель для обнаружения и маскирования персональных данных, позволяющих идентифицировать человека, в тексте (PII). Этот релиз входит в более широкую работу компании по созданию более устойчивой программной экосистемы и предоставлению разработчикам практичной инфраструктуры для безопасной работы с ИИ, включая инструменты и модели, которые упрощают внедрение сильных защитных мер по приватности и безопасности с самого начала.
Privacy Filter — небольшая модель с frontier-уровнем возможностей по распознаванию персональных данных. Она рассчитана на высокопроизводительные privacy-workflows и умеет контекстно определять PII в неструктурированном тексте. Модель может работать локально, то есть маскирование или редактирование PII можно выполнять без отправки данных с машины. Она эффективно обрабатывает длинные входные данные, принимая решения по маскированию за один быстрый проход.
В OpenAI используют дообученную версию Privacy Filter в собственных privacy-preserving workflow. Компания разработала Privacy Filter, потому что считает: с учетом современных возможностей ИИ можно поднять планку приватности выше того, что уже есть на рынке. Версия Privacy Filter, которую выпускают сегодня, показывает state-of-the-art результат на бенчмарке PII-Masking-300k, если скорректировать проблемы с разметкой, выявленные во время оценки.
С этим релизом разработчики могут запускать Privacy Filter в собственных средах, fine tune под свои сценарии и встраивать более сильные механизмы защиты приватности в пайплайны обучения, индексации, логирования и ревью.
Защита приватности в современных ИИ-системах зависит не только от сопоставления шаблонов. Традиционные инструменты обнаружения PII часто опираются на детерминированные правила для форматов вроде телефонных номеров и адресов электронной почты. Они могут хорошо работать в узких случаях, но часто пропускают более тонкие персональные данные и плохо справляются с контекстом.
Privacy Filter построена с более глубоким пониманием языка и контекста, что дает более нюансированную точность. За счет сочетания сильного языкового понимания и системы разметки, ориентированной на приватность, модель может обнаруживать более широкий спектр PII в неструктурированном тексте, включая случаи, где правильное решение зависит от контекста. Она лучше различает информацию, которую следует сохранить, потому что она публичная, и информацию, которую нужно маскировать или редактировать, потому что она относится к частному лицу.
В результате получается модель, достаточно сильная для frontier-уровня фильтрации приватности. При этом она достаточно компактна, чтобы работать локально, — значит, данные, которые еще не были отфильтрованы, могут оставаться на устройстве с меньшим риском утечки, вместо того чтобы отправляться на сервер для де-идентификации.
Privacy Filter — это bidirectional token-classification model с span decoding. Она начинается с autoregressive pretrained checkpoint, а затем адаптируется в token classifier над фиксированной таксономией privacy-меток. Вместо генерации текста токен за токеном модель за один проход размечает входную последовательность, а затем восстанавливает согласованные spans с помощью constrained Viterbi procedure.
Такая архитектура дает Privacy Filter несколько полезных свойств для production:
- Быстро и эффективно: все токены размечаются за один forward pass.
- Контекстно-ориентированно: language prior помогает обнаруживать PII spans на основе окружающего контекста.
- Long-context: выпущенная модель поддерживает до 128 000 токенов контекста.
- Настраиваемо: разработчики могут регулировать operating points, чтобы балансировать recall и precision в зависимости от рабочего процесса.
У выпущенной модели 1,5 млрд total parameters и 50 млн active parameters.
Privacy Filter предсказывает spans по восьми категориям:
- private_person
- private_address
- private_email
- private_phone
- private_url
- private_date
- account_number
- secret
Категория account_number помогает маскировать широкий спектр номеров счетов, включая банковские данные вроде номеров кредитных карт и банковских счетов, а secret помогает скрывать такие вещи, как пароли и API keys.
Эти метки декодируются с помощью BIOES span tags, что помогает получать более чистые и более согласованные границы маскирования.
Мы разрабатывали Privacy Filter в несколько этапов.
Сначала мы построили privacy taxonomy, которая определяет типы spans, которые должна обнаруживать модель. Это включает персональные идентификаторы, контактные данные, адреса, приватные даты, множество разных типов номеров счетов, включая кредитные и банковские данные, а также secrets вроде API keys и паролей.
Затем мы преобразовали pretrained language model в bidirectional token classifier, заменив language modeling head на token-classification head и дообучив его с помощью supervised classification objective.
В-третьих, мы обучали модель на смеси общедоступных и синтетических данных, рассчитанных на реалистичный текст и сложные privacy patterns. В частях публичных данных, где разметка была неполной, мы использовали model-assisted annotation и review, чтобы улучшить покрытие. Мы также генерировали синтетические примеры, чтобы повысить разнообразие форматов, контекстов и privacy subtypes.
На этапе inference token-level predictions модели декодируются в согласованные spans с помощью constrained sequence decoding. Этот подход сохраняет широкое языковое понимание pretrained model, одновременно специализируя ее на обнаружении приватности.
Мы оценивали Privacy Filter на стандартных бенчмарках, а также на дополнительных синтетических и chat-style оценках, созданных для более сложных и более контекстно-зависимых случаев.
Мы также выяснили, что модель можно эффективно адаптировать. Fine-tuning даже на небольшом объеме данных быстро повышает точность в domain-specific задачах, увеличивая F1 score с 54% до 96% и приближаясь к saturation на domain-adaption benchmark, который мы оценивали.
Privacy Filter — это не инструмент анонимизации, не сертификация соответствия требованиям и не замена policy review в высокорисковых сценариях. Это один из компонентов более широкой privacy-by-design системы.
Ее поведение отражает taxonomy меток и decision boundaries, на которых она обучалась. Разным организациям могут быть нужны разные политики обнаружения или маскирования, а такие политики могут требовать in-domain evaluation или дополнительного fine-tuning. Производительность также может различаться в зависимости от языков, письменностей, соглашений об именовании и доменов, отличающихся от training distribution.
Как и все модели, Privacy Filter может ошибаться. Она может пропускать редкие идентификаторы или неоднозначные ссылки на частную информацию, а также избыточно или недостаточно редактировать сущности, когда контекста мало, особенно в коротких последовательностях. В высокочувствительных областях, таких как юридические, медицинские и финансовые workflow, по-прежнему важны ручная проверка и domain-specific evaluation и fine-tuning.
OpenAI выпускает Privacy Filter, чтобы поддержать более сильную защиту приватности во всей экосистеме.
Вместе с моделью компания публикует документацию, в которой описаны архитектура модели, taxonomy меток, decoding controls, предполагаемые сценарии использования, схема оценки и известные ограничения, чтобы команды понимали, что модель делает хорошо, а где ее следует использовать осторожно.
Защита приватности в ИИ-системах — это непрерывная работа на стыке исследований, продуктового дизайна, оценки и развертывания.
Privacy Filter отражает одно из направлений, которое в OpenAI считают важным: небольшие, эффективные модели с frontier-возможностями в узко определенных задачах, значимых для реальных ИИ-систем. Компания выпускает ее, потому что считает, что privacy-preserving infrastructure должно быть проще анализировать, запускать, адаптировать и улучшать.
Цель — чтобы модели учились о мире, а не о частных людях. Privacy Filter помогает сделать это возможным.
OpenAI выпускает этот preview Privacy Filter, чтобы получить обратную связь от исследовательского и privacy-сообщества и продолжить улучшать качество модели.
Материал — перевод статьи с английского.
Оригинал: Introducing OpenAI Privacy Filter