Гайд по управлению неструктурированными данными для AI: классификация, версии, хранение и безопасность

Прослушать статью

По мере развития технологий и регулирования предприятиям нужно выстраивать data governance на уровне пайплайнов, моделей и AI agents. AI может помочь.

Крупные предприятия в регулируемых отраслях, особенно в финансовых услугах и страховании с большим объемом данных, давно и заметно инвестируют в программы data governance. Другие компании тоже догоняют — в рамках курса на то, чтобы стать более data-driven organizations. Обычно data governance начинается с определения политик, классификации источников данных, создания data catalogs и доведения до команд non-negotiables.

Но если присмотреться к внедрению внимательнее, становится видно, что основное внимание долгое время уделялось управлению data warehouses, relational data и другими structured data sources. AI повысил значимость data governance и внедрения guardrails для unstructured data sources, которые используются для обучения language models и передачи контекста AI agents.

«Неструктурированные данные сегодня составляют подавляющее большинство корпоративной информации, и AI переопределяет то, как организации обеспечивают для нее контроль, доступность и безопасность», — говорит Ашиш Мохиндру, генеральный менеджер и старший вице-президент платформы Nutanix Database Service. «Руководителям стоит задать себе два вопроса: кому нужен ежедневный доступ к этим данным и как мы можем защитить их от несанкционированного доступа или случайной потери?» Это два ключевых вопроса для любых данных, но для неструктурированных источников их исторически было сложнее решать. Я поговорил с несколькими экспертами о таких сложностях и о том, как AI может облегчить управление неструктурированными данными.

Контекст не менее важен, чем содержимое

Джоан Фридман, CEO ReilAI, говорит, что организациям нужно обеспечивать безопасность через governed autonomy, а это требует перехода от статического контроля доступа к contract-based safety. «Маршрутизация сообщений — это не то же самое, что понимание того, что в них сказано, связывание активов — не то же самое, что их понимание, а реактивная телеметрия — не то же самое, что скоординированный интеллект», — говорит Фридман.

Structured data sources — это смесь transactional и relational data, поддерживаемая зрелыми технологиями для повышения data quality и управления metadata. Document stores и другие NoSQL databases обеспечили лучшее управление неструктурированными данными и более удобный поиск, но только с появлением vector databases и large language models (LLMs) появились инструменты, позволяющие извлекать смысл из документов в масштабе.

«Когда я смотрю на неструктурированные документы, я сосредоточиваюсь на риске, который живет внутри содержимого, потому что чувствительные сведения скрыты в местах, куда люди никогда не заглядывают», — говорит Аманда Левай, CEO Redactable. «Я ожидаю контролей, которые не позволят таким документам попасть в небезопасные workflows, потому что утечка часто происходит еще до того, как кто-то узнает о риске. Я также настаиваю на системах, которые отмечают, когда файл содержит информацию, которой не следует двигаться дальше, чтобы команды ловили проблему в тот момент, когда это важнее всего».

Проще задать правила доступа к строкам structured financial transactions и customer records, чем определить правила для неструктурированных документов, таких как контракты и медицинские записи. Фридман отмечает, что правила для неструктурированных документов более динамичны, а Левай — что проверка документов осложняется масштабом и требованиями реального времени.

Управление на протяжении всего жизненного цикла

С чего начинать внедрение политик управления? Нужно учитывать data pipelines, исходные наборы данных, потребляющие приложения, AI models и AI agents. Стефан Донзе, основатель и CEO AODocs, говорит, что организациям нужна надежная «инфраструктура». Он рекомендует governed system, которая может выполнять следующие задачи:

  • маршрутизировать контент к нужным моделям
  • обеспечивать гранулярные permissions
  • связывать извлеченные сущности с другими таксономиями
  • отслеживать implicit versions
  • вовлекать людей, когда ставки высоки

«Без этих возможностей AI становится еще одним black box. С ними вы получаете проверяемый, безопасный и объяснимый слой аналитики для data governance, risk, compliance и критически важных для бизнеса решений в масштабе предприятия», — говорит Донзе.

Политики нужно последовательно применять на всем протяжении data lineage — от источника до потребления, включая создание производных данных.

«Одна из главных проблем безопасности неструктурированных данных — отсутствие видимости и data lineage, когда информация перемещается между системами, облаками и командами», — говорит Джек Берковиц, chief data officer в Securiti. «Когда организации не могут отследить, откуда данные появились, как они изменились — даже какая версия активна и актуальна ли она вообще, — они повышают риск того, что через genAI applications будет раскрыта чувствительная или неточная информация».

Использование AI для классификации и категоризации

Извлечение знаний из документов, их категоризация и последующая классификация для user entitlements и без того достаточно сложны. Добавьте к этому тот факт, что документы состоят из разделов и подразделов, которые нужно анализировать отдельно, а затем соотносить с контекстом всего документа.

Возьмем, например, строительные спецификации, которые часто оформляются по стандарту документации CSI MasterFormat. В CSI MasterFormat 50 разделов, включая общие спецификации, электрические системы и водопровод. Теперь представьте access controls для такого документа с учетом того, что безопасность описана в двух отдельных разделах и может требовать иного класса доступа, чем, например, разделы по оборудованию. Но и этого контекста все еще недостаточно: у генерального подрядчика должны быть разные политики доступа к спецификациям для атомной электростанции и для небольшого офисного здания.

Сложные задачи классификации решаются с помощью AI и продвинутых алгоритмов. «Предприятия переходят к товарным, API-driven governance accelerators, особенно в таких областях, как классификация, управление таксономиями и domain-specific labeling», — говорит Нандакумар Сивараман, старший вице-президент и главный архитектор корпоративных данных в Bridgenext. «Вместо ручного применения категорий, правил и политик к тысячам объектов компании теперь используют AI-driven classification APIs для автоматической маркировки и категоризации данных. Они применяют распознавание шаблонов на основе machine learning, чтобы назначать таксономии, иерархии продуктов или домены сущностей, а также внедряют облегченные governance microservices для классификации в реальном времени в ingestion pipelines».

Другой подход использует vision language models (VLMs) для анализа визуальной структуры документа и извлечения дополнительных контекстных подсказок. Харприт Сахота, hacker-in-residence в Voxel51, говорит, что VLMs могут классифицировать документы без обучающих данных, но более серьезная проблема в том, что у большинства организаций изначально нет согласованных таксономий. «Первый шаг — относиться к документам как к изображениям, а не только извлекать текст: так сохраняется информация о верстке, которая важна для понимания структуры», — рекомендует Сахота.

Управление версиями и дубликатами

У документов могут быть сотни версий и производных копий, разбросанных по сайтам SharePoint, облачным хранилищам, SaaS-платформам и вложениям в электронной почте. Одна из самых значимых проблем управления неструктурированными данными — определить последние и точные версии, которые следует включать в AI models, retrieval-augmented generation (RAG) systems и AI agents.

«Чтобы улучшить управление версиями документов, измеряйте semantic similarity между файлами и группируйте документы, которые, вероятно, являются версиями одного и того же документа», — говорит Рис Гриффитс, field CTO в Collibra. «После группировки применяйте дополнительные сигналы — например, дату последнего изменения, metadata или даже шаблоны в заголовках, чтобы определить, какой документ в каждом кластере является самой свежей версией».

Раньше определение версий документов было rules-based system с контролями для владельцев данных и инструментами для обработки исключений. Современные системы теперь включают AI, чтобы автоматизировать или рекомендовать самые свежие и точные документы, а также подсказывать, какие из них следует архивировать.

«AI agents отлично справляются с обработкой неструктурированных данных, читая и анализируя содержимое презентаций, видео, электронных писем и журналов чатов в масштабе», — говорит доктор Майкл Ву, chief AI strategist в PROS. «Чтобы управлять версиями, мы должны объединить поиск и genAI, усилив практику “search first, search often” принципом “read all before creating”. Это поддерживает непрерывное развитие документов, когда устаревшее или неверное содержимое естественным образом обновляется или помечается как подлежащее выводу из использования».

Политики хранения документов

Даже после решения проблемы дубликатов остается ключевой вопрос data governance: как внедрять document retention policies? «У большинства организаций для structured data есть четко определенные правила хранения, но применять те же правила к неструктурированному контенту исторически было очень сложно», — говорит Гриффитс из Collibra. «Если с помощью AI автоматически отмечать каждый документ по retention taxonomy, включая типы и подтипы записей, компании смогут затем искать и управлять неструктурированными данными с той же точностью, что и structured data sets».

Политики хранения обычно следуют юридическим требованиям с конкретными правилами. Более сложная задача — распознавать устаревшую информацию в документах, которую больше не следует использовать с AI models и agents.

«AI может старить документы так же, как наш разум естественно позволяет старым воспоминаниям тускнеть, замечая снижение релевантности, уменьшение связей с текущей работой и меняющиеся шаблоны использования», — говорит Джейсон Уильямсон, CEO MythWorx. «Вместо жесткого отсечения он постоянно адаптируется, помогая организациям выделять то, что по-прежнему значимо, и мягко выводить из обращения то, что уже не соответствует настоящему».

Безопасность данных от начала до конца

Три дисциплины данных связаны между собой: data governance защищает бизнес, data privacy защищает людей, а data security защищает данные. Внедрение data security должно начинаться с того, как люди создают и управляют документами.

«Когда вы работаете с документами в масштабе, безопасность и управление не могут быть разными workflows с передачей задач между командами; они становятся единым интегрированным workflow, в котором обнаружение, классификация и enforcement происходят как скоординированная реакция», — говорит Рохан Сате, сооснователь и CEO Nightfall. «Современные платформы должны помещать в карантин сообщения, письма и файлы, которые были расшарены ненадлежащим образом, в момент обнаружения. Они должны отзывать избыточные permissions к чувствительным документам, предотвращать несанкционированную синхронизацию с облаком, блокировать рискованные CLI commands и останавливать загрузку файлов в несанкционированные назначения — все в реальном времени».

Поскольку документы питают AI models и AI agents, второй аспект data security — какие документы включать и как защищать данные, встроенные в AI. «Главный риск AI — это не только традиционный breach; это contextual leakage», — говорит Нико Дюпон, основатель и CEO Cyborg. «Как только вы grounding-модель на корпоративных данных, она становится потенциальным каналом для раскрытия чувствительной информации неавторизованным пользователям, и нельзя рассчитывать, что сама модель будет своим gatekeeper. Настоящая data security требует inference time governance и рассмотрения AI как нового уровня инфраструктуры, где защита встроена в архитектуру и автоматизирована так же, как очистка данных».

Третий аспект — как данные защищаются, когда люди взаимодействуют с LLMs и AI agents. Они должны соблюдать access policies пользователя и контекст использования. «Главный риск безопасности в AI document management — это inference exposure, когда AI может корректно ответить на вопрос, получив доступ к чувствительному документу, который пользователь технически не должен видеть», — говорит Джеймс Уркхарт, field CTO и developer evangelist в Kamiwaza AI. «Чтобы снизить этот риск, организации должны понимать связи между разными сущностями в своих business ontologies и внедрять permission-aware indexing, которое гарантирует, что AI и agentic systems будут соблюдать те же access controls, что и человек».

Один из самых сложных аспектов управления неструктурированными данными в том, что регуляторные требования меняются, а возможности AI растут. Политики должны эволюционировать по мере того, как компании добавляют новые наборы данных, повышают AI literacy среди сотрудников и расширяют сценарии использования AI. Решение задач управления неструктурированными данными в обозримом будущем будет создавать все больший backlog работ.


Материал — перевод статьи с английского.

Оригинал: Addressing the challenges of unstructured data governance for AI