Извлечение инсайтов из контрактов с помощью PwC AIDA на AWS — ИИ для бизнеса

Извлечение инсайтов из контрактов с помощью PwC AIDA на AWS

Прослушать статью

Этот материал подготовлен совместно с Yash Munsadwala, Adam Hood, Justin Guse и Hector Hernandez из PwC.

Анализ контрактов часто отнимает значительное время у команд по правовым вопросам, комплаенсу и закупкам, особенно когда важные сведения скрыты в длинных, неструктурированных соглашениях. По мере роста объемов контрактов поиск конкретных пунктов и оценка извлеченных условий становится все труднее масштабировать.

Сегодня многие команды по-прежнему полагаются в основном на извлечение по ключевым словам и шаблонам или на системы управления контрактами для анализа документов. Хотя такие методы могут работать, им часто не хватает стабильности и качества инсайтов на масштабе. Поэтому многие организации изучают AI-подходы, которые сочетают large language models (LLM) с автоматизированными рабочими процессами извлечения.

Решение PwC AI-driven annotation (AIDA), построенное на AWS, может извлекать структурированные инсайты из контрактов с помощью извлечения на основе правил и запросов на естественном языке. Используя LLM, AIDA способен интерпретировать сложный юридический язык и извлекать сведения на основе заданных правил. Пользователи могут задавать вопросы на естественном языке по отдельным контрактам или по нескольким документам внутри проекта и получать контекстно-зависимые ответы с привязанными цитатами. Снижая потребность вручную искать и интерпретировать формулировки контрактов, эти возможности помогают упростить процессы проверки. В реализации у клиентов AIDA помог сократить время ручной проверки контрактов до 90%, ускоряя получение ключевой информации и сокращая циклы ревью. В этой статье вы увидите, как AIDA решает эти задачи. Мы разберем архитектуру AIDA и покажем три ключевые возможности: извлечение по шаблонам, чат на уровне документа и глобальный чат по нескольким документам.

Обзор решения

AIDA создано для преобразования неструктурированных документов в структурированные, легко ищущиеся инсайты, упрощая доступ к критически важной информации из контрактов и ее повторное использование в разных системах. AIDA использует LLM и набор облачных и интегрированных сервисов AWS, чтобы эффективнее извлекать сведения из контрактов. Решение предоставляет возможности, которые могут поддерживать требования организации к безопасности, комплаенсу и управлению рисками, однако клиенты по-прежнему несут ответственность за настройку и эксплуатацию решения в соответствии со своими обязательствами по комплаенсу. Поскольку AIDA обрабатывает потенциально чувствительные контрактные данные, до использования AI-выводов в бизнесе или юридически значимых процессах следует применять соответствующие меры защиты и рабочие процессы с участием человека на проверке. AIDA предлагает комплексный набор возможностей, предназначенных для решения существующих проблем. Ниже перечислены ключевые функции, которые мы подробно рассмотрим в следующих разделах:

  • Интеграция с model systems: интегрируйтесь с model systems, например системами управления контрактами и хранилищами документов, чтобы получать исходные данные и передавать извлеченные инсайты дальше.

AIDA может поддерживать масштабируемый анализ контрактов в широком диапазоне отраслей, включая Media & Entertainment (M&E) и недвижимость, а также в таких областях, как закупки, юриспруденция и комплаенс. Например, в секторе M&E AIDA помогает производителям и дистрибьюторам контента раскрывать общую ценность их IP, извлекая и анализируя информацию о правах из лицензионных соглашений. Он сводит права, такие как вещание, потоковая передача, прокат в кинотеатрах и производные права, что позволяет быстрее принимать обоснованные решения о спин-оффах, сиквелах и глобальной дистрибуции. Одна крупная киностудия и телестудия сократила время исследования прав на 90%.

AIDA: обзор архитектуры

PWC Solution Architecture for AIDA

Архитектура показывает, как компоненты AIDA работают вместе, чтобы безопасно обрабатывать, анализировать и предоставлять инсайты из сложных контрактов, используя масштабируемые облачные сервисы AWS. Каждый компонент спроектирован так, чтобы помогать обрабатывать контракты на масштабе, сохраняя безопасность, трассируемость и производительность.

1. Пограничная безопасность и доступ

Пограничный уровень AIDA обеспечивает аутентифицированный доступ и контролируемую маршрутизацию пользовательского трафика. Запросы проходят через AWS WAF для фильтрации угроз, затем через Network Load Balancer к reverse proxy-серверу (NGINX), который выполняет завершение SSL, маршрутизацию и применение политик перед передачей в Amazon Elastic Container Service (Amazon ECS). Данные при передаче шифруются с использованием TLS 1.2 или выше, включая пользовательские подключения по HTTPS, а также внутреннее взаимодействие сервисов между Amazon ECS, Amazon Relational Database Service (Amazon RDS), Amazon Simple Storage Service (Amazon S3), Amazon Bedrock и другими сервисами AWS.

Аутентификация выполняется через Amazon Cognito, интегрированный с корпоративными провайдерами идентификации, например Microsoft Entra ID и Okta, чтобы обеспечить безопасный доступ на масштабе. AIDA применяет тонко настраиваемый контроль доступа через роли на уровне приложения и на уровне проекта, чтобы администраторы могли централизованно управлять доступом и правами пользователей. Роли на уровне проекта помогают администраторам контролировать разрешения и определять, какие действия каждый пользователь может выполнять в проекте, обеспечивая безопасный и управляемый доступ к данным и функциям.

2. Хранение данных

После аутентификации AIDA сохраняет загруженные документы, результаты Optical Character Recognition (OCR) и связанные метаданные в Amazon S3, обеспечивая надежный и экономичный способ управления большими объемами контрактных данных. Структурированные данные, конфигурации и извлеченные инсайты хранятся в Amazon RDS, чтобы пользователи могли эффективно запрашивать и получать инсайты для аналитики и интеграции.

Корзины Amazon S3 шифруются при хранении с использованием ключей шифрования под управлением Amazon S3 (SSE-S3), а экземпляры Amazon RDS шифруются при хранении с использованием ключей под управлением AWS KMS. Кроме того, настройка S3-корзин следует лучшим практикам Amazon S3, включая включенный на уровне корзины Block Public Access и включение журналирования доступа для целей анализа безопасности и аудита.

3. OCR и обработка прогнозов

Рабочие процессы OCR и извлечения выполняются асинхронно в Amazon ECS с использованием AWS Fargate, а задачи координируются через Amazon Simple Queue Service (Amazon SQS). Такой подход позволяет параллельно обрабатывать большие объемы контрактов, не блокируя пользовательские взаимодействия.

Правила извлечения определяют, как релевантный контент идентифицируется и отправляется в foundation models (FM), размещенные в Amazon Bedrock, где LLM могут интерпретировать текст контракта и извлекать структурированные значения. Результаты записываются обратно в Amazon RDS, где они доступны для проверки, дашбордов и интеграций.

4. Retrieval Augmented Generation (RAG)

При анализе контрактов критически важно, чтобы ответы были точными и могли быть прослежены до исходного текста. RAG помогает решить эту задачу, заземляя ответы модели на содержимом исходного контракта, а не полагаясь только на знания модели. AIDA использует RAG, чтобы убедиться, что ответы основаны на тексте контракта. Документы, хранящиеся в Amazon S3, преобразуются в эмбеддинги с помощью Amazon Bedrock Embeddings Models, а векторы индексируются в Amazon OpenSearch Serverless для семантического поиска. Во время инференса релевантные данные извлекаются из Amazon Bedrock Knowledge Bases и объединяются с пользовательским запросом, создавая точные, контекстно-зависимые и объяснимые результаты.

Кроме того, AIDA использует Amazon Bedrock Guardrails для применения фильтрации контента, защиты чувствительной информации (PII) и контроля безопасности prompt’ов, дополнительно подтверждая, что ответы остаются защищенными и соответствуют корпоративным и юридическим стандартам.

5. Визуализация

Чтобы показать, как обрабатываются контракты, AIDA интегрируется с Amazon Quick Sight для визуализации метрик, таких как объем документов, точность OCR, пропускная способность извлечения и статус обработки.

Такая панель мониторинга дает представление о производительности системы и помогает выявлять узкие места или возможности повысить эффективность со временем.

6. Интеграции систем между внутренними, вендорскими и сторонними системами

AIDA интегрируется с downstream-системами с помощью AWS Lambda, Amazon EventBridge и Amazon SQS. Эти интеграции доставляют извлеченные инсайты в инструменты управления жизненным циклом контрактов, в системы данных или другие операционные системы. Настраиваемая очередь review с human-in-the-loop может проверять и утверждать извлеченные результаты до их передачи далее по цепочке.

Передавая структурированные контрактные данные в уже используемые инструменты, организации могут сократить ручную обработку данных и повторно использовать контрактные инсайты в процессах комплаенса, отчетности и аналитики.

7. Вспомогательные системные сервисы

Ряд вспомогательных сервисов AWS поддерживает основную систему AIDA, обеспечивая безопасность, наблюдаемость и автоматизацию. AWS Identity and Access Management (AWS IAM) и AWS Key Management Service (AWS KMS) управляют доступом и шифрованием, а политики IAM реализуются в соответствии с принципом наименьших привилегий; Amazon CloudWatch и AWS X-Ray обеспечивают мониторинг; а AWS CodeBuild, AWS CodePipeline и AWS CloudTrail обеспечивают непрерывное развертывание и аудит благодаря ведению журналов доступа для операций с данными.

Давайте посмотрим, как именно Amazon Bedrock включает интеллектуальные возможности, которые дают этот прирост эффективности.

Как Amazon Bedrock обеспечивает интеллектуальные функции AIDA

Amazon Bedrock обеспечивает интеллектуальные инсайты AIDA, возможности извлечения и conversational-функции. Интегрируя передовые FMs в конвейер обработки AIDA, Amazon Bedrock обеспечивает контекстно-зависимое извлечение данных, семантический поиск и интерактивный чат. AIDA координирует обработку документов, OCR, семантический поиск и reasoning LLM в едином рабочем процессе, извлекая релевантные фрагменты на основе запросов или заранее заданных правил и используя Amazon Bedrock для поддержки RAG и выдачи ответов с четкими цитатами к исходным документам.

Чтобы показать ключевые возможности, мы загрузили в AIDA образцы контрактов из Contract Understanding Atticus Dataset (CUAD) — открытого набора данных для обзора юридических контрактов, созданного десятками юридических экспертов из The Atticus Project. Набор CUAD доступен под лицензией Creative Commons Attribution 4.0 (CC BY 4.0), которая разрешает использование и распространение в исследовательских и оценочных целях.

1. Более умное и быстрое извлечение инсайтов с помощью переиспользуемых шаблонов

Переиспользуемые шаблоны позволяют извлекать согласованные атрибуты контрактов на масштабе, помогая пользователям один раз определить логику извлечения и затем применять ее к нескольким документам. Каждый шаблон объединяет метки, которые обозначают ключевые элементы контракта, такие как сроки уведомления о расторжении, условия продления или положения о правах, которые юридические и compliance-команды часто проверяют.

Когда шаблон применяется к набору контрактов, одни и те же правила извлечения используются последовательно во всех документах. Это помогает сократить ручные усилия на проверку и одновременно повысить точность и согласованность, особенно при работе с большими объемами контрактов. Внутри AIDA обрабатывает каждый контракт с использованием структурированного представления, которое сохраняет контекст страницы и раздела. Правила извлечения определяют, как идентифицируется релевантный контент, а LLM интерпретируют этот контекст, чтобы извлечь правильные значения. Результаты возвращаются с цитатами, которые ведут к исходному тексту контракта, позволяя проверить, откуда взялся каждый инсайт.

Например, метка Termination Notice Period извлекает сроки прямо из контракта, показанного на следующем скриншоте, а правая панель отображает извлеченный ответ, выделенный зеленым, с кликабельными ссылками на точный исходный текст внутри контракта.

AIDA example showing extracted answer

2. Чат на уровне документа

Можно использовать чат на уровне документа, чтобы задавать вопросы на естественном языке по одному контракту и получать ответы, основанные прямо на этом документе. Эта возможность особенно полезна, когда нужно быстро уточнить конкретные условия, даты или обязательства, не просматривая вручную длинные и сложные соглашения.

Когда вопрос отправлен, AIDA может определить наиболее релевантные разделы контракта, сравнивая запрос с семантическим представлением содержимого документа. Затем эти разделы передаются как контекст LLM, размещенной в Amazon Bedrock, которая формирует ответ на основе текста контракта.

3. Глобальный чат

Глобальный чат расширяет функцию чата на уровне документа и позволяет задавать вопросы сразу по нескольким контрактам внутри проекта. Эта функция полезна, когда нужен более широкий обзор, например для выявления общих положений, сравнения обязательств или суммарного описания условий в наборе связанных соглашений.

Глобальный чат можно использовать двумя способами. В одном сценарии вопросы оцениваются по контрактам в проекте, чтобы обеспечить консолидированный обзор на уровне всего проекта. В другом сценарии вопросы можно ограничить выбранным набором контрактов, чтобы пользователи могли сосредоточиться на конкретных соглашениях, используя тот же разговорный интерфейс.

AIDA Global Chat Example

AIDA помогает строить семантическую базу знаний с помощью Amazon Bedrock на основе исходных контрактов, извлекая и встраивая содержимое документов для поиска. Эти эмбеддинги индексируются в Amazon OpenSearch Serverless, создавая масштабируемый семантический слой, который может поддерживать запросы по большим и разнообразным коллекциям контрактов.

При отправке вопроса AIDA может извлекать релевантные фрагменты, используя комбинацию неявной и явной фильтрации. Неявная фильтрация опирается на семантическое сходство между запросами и содержимым контрактов, чтобы находить контекстно релевантные разделы. Явная фильтрация применяет метаданные, такие как тип контракта, дата создания, бизнес-подразделение или юрисдикция, чтобы сузить результаты до наиболее релевантного поднабора. Затем выбранный контекст передается LLM, размещенной в Amazon Bedrock, которая формирует консолидированный ответ с цитатами, ведущими к исходным документам.

Поддерживающие возможности, построенные на системе AIDA

В следующем разделе описаны поддерживающие возможности, построенные на системе AIDA: операционная панель мониторинга и интеграции с внешними системами.

Операционная панель мониторинга

Операционная панель мониторинга дает сводное представление о производительности проверки контрактов на уровне проекта, отслеживая объем файлов, показатели завершения OCR и извлечения инсайтов, ошибки и точность извлечения. Она помогает командам быстро находить узкие места и отслеживать продуктивность ревьюеров.

AIDA Operational Dashboard

Интеграции с внешними системами

Структурированные извлеченные инсайты, созданные AIDA, можно быстро передавать в downstream-системы, такие как инструменты Contract Lifecycle Management (CLM), системы ERP, CRM или хранилища данных. Такая интеграция помогает обогащать внутренние или внешние системы качественными, машиночитаемыми данными из контрактов, уменьшая объем ручного повторного ввода и сверки между системами. Встраивая эти инсайты напрямую в такие системы, организации могут улучшить контроль комплаенса и поддержать более быстрые, основанные на данных решения.

Заключение

Решение PwC AI-driven annotation (AIDA), работающее на AWS, помогает организациям перейти от ручной проверки контрактов к более быстрому, надежному и масштабируемому подходу. Объединяя OCR, пользовательские правила извлечения и Retrieval Augmented Generation через Amazon Bedrock, AIDA помогает быстро выявлять ключевые условия, обязательства и инсайты, скрытые в сложных контрактах.

Решение помогает упростить юридические и операционные процессы, сократить время проверки и повысить согласованность при работе с большими объемами документов. Оно построено на облачных сервисах AWS и спроектировано как безопасное решение на базе Amazon ECS, Amazon S3, Amazon RDS и Amazon OpenSearch Serverless. AIDA может обеспечить гибкость и устойчивость, необходимые для корпоративного внедрения. Вместе PwC и AWS могут превращать контрактные данные в практическую аналитику, обеспечивая более умные решения и более высокую эффективность в операциях.


Материал — перевод статьи с английского.

Оригинал: Extracting contract insights with PwC’s AI-driven annotation on AWS