JBS Dev: об несовершенных данных, human in the loop и последней миле AI — от возможностей модели к устойчивой стоимости
Joe Rose, президент технологического провайдера JBS Dev, хочет развеять один из мифов о работе с генеративными и agentic AI-системами. «Распространено заблуждение, что ваши данные должны быть идеальными, прежде чем вы начнете использовать такие workloads», — говорит он.
Как отмечалось в недавней статье AI Fieldbook, вендоры и консультанты, что неудивительно, предлагают, соответственно, гигантские data lakes и многолетние программы трансформации данных. В результате руководители лишь недоумевают. Реальность немного иная. «Инструменты для работы с данными низкого качества сейчас лучше, чем когда-либо», — говорит Rose. «Поразительно, насколько хорошо LLM понимает полуготовый prompt».
Это логично. Если такой инструмент уже есть, его стоит использовать в свою пользу — при наличии правильных guardrails. Встроенная непредсказуемость моделей означает необходимость обрабатывать плохие ответы, и именно здесь появляется human in the loop. Для текстовых данных или данных категорийной природы уже есть определенная устойчивость. «Люди привыкли к подходу “мы это сделали, оно работает, и мы забыли”», — говорит Rose. «Но так эти системы не работают».
Говоря о несовершенных данных, Rose приводит пример клиента из медицинского сектора, который хотел перейти на другую систему сверки биллинга. Записи были смешанными: часть в PDF, часть в виде изображений; процедура иногда оказывалась в имени врача, имя врача — в имени пациента и так далее. Gen AI смогла выделить чистые данные по простому prompt — от OCR для изображений до извлечения текста из PDF, — а затем были подключены более agentic-подходы, например сопоставление записи клиента со страховым контрактом, чтобы проверить, выставлен ли счет по правильному тарифу.
«Вы начинаете наслаивать разные use case один на другой», — говорит Rose. «Это не значит, что система все делает правильно: human in the loop по-прежнему нужен. Но цель — сказать: “сначала у нас было 20% автоматизации, потом 40%, потом 60%, 80%”, и постепенно наращивать это со временем».
В дальнейшем Rose ожидает, что обсуждение этих моделей сместится к стоимости и portability. «Я думаю, вы увидите отход от радикальных скачков в model capability и больший акцент на том, как сделать стоимость более устойчивой, чтобы нам не приходилось строить data centers такими темпами, как мы их строим сейчас», — говорит он.
«Последняя миля — это как сделать так, чтобы все это работало на laptop или phone вместо data center? Модели уже обучены на огромном массиве данных — по сути, на каждой странице интернета и еще на других материалах. Не похоже, что где-то остался огромный объем данных, который еще не был в них загружен и даст какой-то прорыв».
На AI & Big Data Expo, где участвует JBS Dev, Rose с интересом ждет дискуссий — и еще одной спорной мысли, которую он собирается высказать: перестать покупать у SaaS-вендоров то, что можно сделать своими силами. «Это не так сложно, как кажется», — говорит он. «Почти у всех есть какая-то облачная инфраструктура, и с этого я бы и начал, потому что cloud tooling, особенно у большой тройки, содержит все, что нужно, чтобы начать внедрять agentic workloads уже завтра — без новых software licenses и без нового обучения».
Когда этот фундамент уже есть, JBS Dev помогает с последующими шагами этого пути.
Ниже смотрите полное интервью с Rose:

Изображение: Gerd Altmann, Pixabay
Связанные материалы
Hugging Face разместил вредоносное ПО, замаскированное под релиз OpenAI
Laserfiche представила AI-агентов для workflow на естественном языке
AI автоматизирует соблюдение HR-норм, кроме области, которая нужна tech-компаниям
Bain видит рынок SaaS на US$100 млрд в автоматизации на базе agentic AI
Материал — перевод статьи с английского.
Оригинал: JBS Dev: On imperfect data and the AI last mile – from model capability to cost sustainability