JBS Dev: об несовершенных данных, human in the loop и последней миле AI — от возможностей модели к устойчивой стоимости

Прослушать статью

Joe Rose, президент технологического провайдера JBS Dev, хочет развеять один из мифов о работе с генеративными и agentic AI-системами. «Распространено заблуждение, что ваши данные должны быть идеальными, прежде чем вы начнете использовать такие workloads», — говорит он.

Как отмечалось в недавней статье AI Fieldbook, вендоры и консультанты, что неудивительно, предлагают, соответственно, гигантские data lakes и многолетние программы трансформации данных. В результате руководители лишь недоумевают. Реальность немного иная. «Инструменты для работы с данными низкого качества сейчас лучше, чем когда-либо», — говорит Rose. «Поразительно, насколько хорошо LLM понимает полуготовый prompt».

Это логично. Если такой инструмент уже есть, его стоит использовать в свою пользу — при наличии правильных guardrails. Встроенная непредсказуемость моделей означает необходимость обрабатывать плохие ответы, и именно здесь появляется human in the loop. Для текстовых данных или данных категорийной природы уже есть определенная устойчивость. «Люди привыкли к подходу “мы это сделали, оно работает, и мы забыли”», — говорит Rose. «Но так эти системы не работают».

Говоря о несовершенных данных, Rose приводит пример клиента из медицинского сектора, который хотел перейти на другую систему сверки биллинга. Записи были смешанными: часть в PDF, часть в виде изображений; процедура иногда оказывалась в имени врача, имя врача — в имени пациента и так далее. Gen AI смогла выделить чистые данные по простому prompt — от OCR для изображений до извлечения текста из PDF, — а затем были подключены более agentic-подходы, например сопоставление записи клиента со страховым контрактом, чтобы проверить, выставлен ли счет по правильному тарифу.

«Вы начинаете наслаивать разные use case один на другой», — говорит Rose. «Это не значит, что система все делает правильно: human in the loop по-прежнему нужен. Но цель — сказать: “сначала у нас было 20% автоматизации, потом 40%, потом 60%, 80%”, и постепенно наращивать это со временем».

В дальнейшем Rose ожидает, что обсуждение этих моделей сместится к стоимости и portability. «Я думаю, вы увидите отход от радикальных скачков в model capability и больший акцент на том, как сделать стоимость более устойчивой, чтобы нам не приходилось строить data centers такими темпами, как мы их строим сейчас», — говорит он.

«Последняя миля — это как сделать так, чтобы все это работало на laptop или phone вместо data center? Модели уже обучены на огромном массиве данных — по сути, на каждой странице интернета и еще на других материалах. Не похоже, что где-то остался огромный объем данных, который еще не был в них загружен и даст какой-то прорыв».

На AI & Big Data Expo, где участвует JBS Dev, Rose с интересом ждет дискуссий — и еще одной спорной мысли, которую он собирается высказать: перестать покупать у SaaS-вендоров то, что можно сделать своими силами. «Это не так сложно, как кажется», — говорит он. «Почти у всех есть какая-то облачная инфраструктура, и с этого я бы и начал, потому что cloud tooling, особенно у большой тройки, содержит все, что нужно, чтобы начать внедрять agentic workloads уже завтра — без новых software licenses и без нового обучения».

Когда этот фундамент уже есть, JBS Dev помогает с последующими шагами этого пути.

Ниже смотрите полное интервью с Rose:

Изображение: Gerd Altmann, Pixabay

Связанные материалы

Hugging Face разместил вредоносное ПО, замаскированное под релиз OpenAI

Laserfiche представила AI-агентов для workflow на естественном языке

AI автоматизирует соблюдение HR-норм, кроме области, которая нужна tech-компаниям

Bain видит рынок SaaS на US$100 млрд в автоматизации на базе agentic AI

Материал — перевод статьи с английского.

Оригинал: JBS Dev: On imperfect data and the AI last mile – from model capability to cost sustainability

Подписаться на новости в Telegram