Следующий прорыв в AI придет не от более крупных моделей, а от лучших данных

Прослушать статью

Как и в случае с LLM, успех на других фронтах AI потребует доступа к большим объемам высококачественных данных. Для этого нужен осознанный, основанный на исследованиях дизайн датасетов.

Искусственный интеллект развивается не с одинаковой скоростью во всех отраслях. В одних направлениях он быстро продвигается вперед, в других заметно отстает.

Если провести время с самыми продвинутыми AI-приложениями сегодня, этот контраст становится очевидным. В software development AI быстро становится повсеместным: он пишет production-ready код, объясняет малоизвестные библиотеки и итеративно работает с темпом, за которым человеческим командам трудно угнаться.

Но стоит поместить ту же AI-модель в сложный workflow customer support или попросить ее рассуждать в тонком клиническом сценарии, и начинают проявляться трещины. Многошаговое рассуждение дает сбои. Контекст теряется. Производительность падает так, что это может казаться несоответствующим сильным сторонам модели в других задачах.

Эти AI-модели часто похожи друг на друга. Они работают на похожем железе и нередко обучаются сходным образом. Так почему же столь разный результат на разных задачах? Самое простое объяснение и самое недооцененное — данные.

Software engineering опирается на огромный, структурированный и хорошо видимый цифровой след. Код пишется на стандартизированных языках, сопровождается подробной документацией, обсуждается в публичных форумах и накапливается в масштабе. Эта экосистема создала мощный и крайне полезный массив обучающих материалов.

Во многих других областях такого нет. Например, healthcare data разбросаны по учреждениям, ограничены требованиями privacy, представлены в нескольких модальностях и редко готовы к использованию в AI out-of-the-box. Enterprise workflows хранятся во внутренних системах, которые никогда не проектировались для обучения AI. Multilingual speech data сильно различаются по качеству и представленности.

Этот дисбаланс создает то, что я называю «data gap». Это разрыв между тем, на что модели способны в теории, и тем, чего они могут достичь на практике, потому что нужных данных пока не существует в пригодной форме. Закрытие этого data gap может оказаться самой важной — и наименее эффектной — задачей в AI сегодня.

Недостающая опора прогресса в AI

Три силы определяют недавний прогресс в AI: модели, chips и данные.

В AI models отрасль инвестировала очень много. Крупные исследовательские организации нанимают тысячи researchers и scientists, которые активно совершенствуют архитектуры, training techniques и evaluation methods. Прорывы измеряются баллами в benchmarks, conference papers и производительностью моделей на человеческих задачах. В computing chips инвестиции были не менее интенсивными. Производители hardware и инфраструктурные провайдеры вкладывают миллиарды долларов в строительство и поддержку data centers, которые обеспечивают более быстрые результаты за счет large-scale training.

Однако data не получила такого же институционального внимания в разработке AI. Разговоры с researchers в frontier AI labs показывают схожее разочарование: возможности современных моделей в ключевых сценариях, таких как healthcare, ограничены не столько архитектурной фантазией, сколько доступностью высококачественных, предметно-специфичных данных. Узкое место — не всегда недостаток идей, а недостаток надежных входных данных.

Мы давно переросли этап простого scraping интернета в поисках полезных данных, и этот путь не масштабируется. Прогресс зависит от создания и курирования datasets, которые отражают сложность реального жизненного опыта и организационных процессов. Такая работа требует и научной строгости, и исследовательской специализации в области data for AI.

Датасет, стоящий за каждым скачком

История AI подтверждает устойчивый урок: крупные скачки в возможностях моделей следуют за крупными скачками в доступности качественных данных. От ранних vision systems, опиравшихся на четко размеченные изображения, до современных language models, обученных на огромных текстовых массивах, каждый серьезный прорыв зависел от доступа к большему объему высококачественных данных.

Одних архитектурных инноваций обычно недостаточно. Ценность новых подходов проявляется только тогда, когда они сочетаются с большими, структурированными и репрезентативными datasets, которые показывают, что модели действительно умеют на практике. И в vision, и в language прогресс зависел от кропотливой работы по сбору, организации и валидации исходных данных.

Large language models особенно наглядно это демонстрируют. Их появление было не только результатом лучших training techniques, но и следствием доступа к беспрецедентному объему данных. Эти модели не создавали данные — они опирались на них. Этот паттерн поднимает важный вопрос настоящего момента: кто создает следующее поколение фундаментальных datasets?

В областях от healthcare до audio и agentic task performance нет общепринятого blueprints. Что считать gold-standard dataset для обучения AI agent, который должен справляться со сложными enterprise tasks? Как выглядит clinically meaningful evaluation для модели, которая помогает в medical decision-making? Как следует курировать multilingual speech data, чтобы обеспечить широкую представленность и надежную работу?

Это не простые задачи поиска источников. Это фундаментальные research challenges, которые необходимо решить.

Когда данные воспринимают как товар

Слишком часто критически важные решения по данным сводятся к процедурам закупки. Организация запрашивает «medical conversations» или «wildlife scenes», и запрос уходит внутренним procurement- или data sourcing-командам либо внешним data vendors, которые собирают данные, внешне похожие на описание. Неявное предположение заключается в том, что данные взаимозаменяемы и что один dataset не хуже другого, если он соответствует базовой спецификации.

Практика показывает обратное. Казалось бы, небольшие решения — по inclusion criteria, annotation standards, filtering rules и validation protocols — могут резко изменить downstream performance. Design данных влияет на поведение модели не меньше, чем архитектура.

Проблему усугубляют три структурных фактора:

Capacity: Существует сравнительно мало специализированных команд, которые на высочайшем уровне rigor занимаются созданием domain-specific datasets. Талант и финансирование в основном ушли в model development и hardware innovation. Работа с данными часто остается на заднем плане, хотя она лежит в основе и того и другого.
Design: Создание dataset — это отдельная дисциплина, не тождественная проектированию neural network. Она требует экспертизы в experimental design, domain knowledge и statistical validation. Ожидать, что model researchers одновременно возьмут на себя всю тяжесть data research, а также будут обучать и оценивать модели, значит недооценивать сложность upstream-задачи.
Translation: Researchers, которые запрашивают конкретные источники данных для улучшения моделей, часто не совпадают с теми, кто реально занимается sourcing этих данных. Из-за этого нюансы и подкрепленная исследованиями экспертиза нередко теряются или размываются, когда запрос проходит через слои procurement и vendor relationships. Итогом может стать data, которая формально соответствует спецификации, но не помогает повысить model performance.

Появление annotation providers и reinforcement learning services частично закрыло потребность. Оценка outputs модели, разметка текста и анализ структурированной информации необходимы для многих optimization tasks. Но такие активности создают данные, которые тщательно сконструированы для конкретных, ограниченных целей.

Передовые задачи в AI требуют большего. Им нужны datasets, полученные из реальной человеческой активности и естественных organizational processes. Такие данные сложны, multimodal и чувствительны. По умолчанию они редко готовы для AI. И превращение их в надежный материал для training и evaluation — это научная работа.

Почему AI data layer требует научной строгости

Если высококачественные данные — центральное узкое место, то научная строгость — часть решения. Как у ведущих создателей моделей есть dedicated research labs, а у hardware — собственные development ecosystems, так и data layer для AI требует сфокусированных, научно обоснованных институтов.

Это означает прямую работу с такими вопросами, как dataset design, evaluation methodology и quality control. Разговор не может заканчиваться на объеме; он должен касаться структуры данных, representativeness и expert validation.

Создание datasets нужно воспринимать как experimental design. Protocols должны быть задокументированы и валидированы. Evaluation frameworks должны проверять, действительно ли dataset отражает предполагаемые приложения.

Отрасли также нужны standards и benchmarks, которые отражают реальную сложность, а не упрощенные proxies. В healthcare, например, оценивать систему, предназначенную для clinical assistance, с помощью общих question-and-answer тестов недостаточно. Реальные clinical environments включают multimodal inputs и contextual judgment. Benchmarks должны отражать эту реальность, если они должны служить значимыми барьерами перед deployment.

Измерение качества — еще один важный рубеж. Финансы используют стандартизированные метрики, такие как credit scores, для оценки риска. У AI нет эквивалента для datasets и benchmarks. Разработка ясной методологии для количественной оценки качества datasets и reliability evaluation поможет сделать оценку моделей более прозрачной.

Критерии оценки multilingual audio library будут отличаться от критериев для multimodal oncology dataset. Но базовый принцип остается неизменным: лучшим моделям нужны лучше определенные и лучше измеренные данные.

Риски, если все сделать неправильно

По мере того как AI-системы приближаются к high-stakes deployment, слабые практики работы с данными несут ощутимые риски.

Benchmarks нельзя создавать на тех же данных, которые используются для training, — это значит заранее передать модели ответы теста. Увеличение объема data без приоритета на quality и selection снижает прирост model performance и даже может смещать результаты против underrepresented populations или вовсе исключать их. Это методологические проблемы, и их необходимо решить.

Строгость, требуемая на data layer, может не попадать в заголовки. Обычно она не ведет к эффектным product launches. Но data layer для AI является фундаментом доверия, безопасности и устойчивого прогресса всего AI.

Экосистема для эпохи данных

Ни одна организация не может сама закрыть data gap. Нужна экосистема AI data labs и research groups, каждая из которых сосредоточена на своих доменах и проблемах, но объединена приверженностью научной дисциплине. Эти институты будут работать вместе с model researchers и domain experts над такими задачами, как dataset contamination, factuality, groundedness, de-identification, international representation и bias. Они будут проектировать benchmarks, отражающие реальную сложность, а не упрощенные абстракции.

Траектория AI будет определяться не только большими моделями или более быстрыми chips. На нее повлияют datasets, которые мы создаем, standards, которые мы принимаем, и rigor, который мы применяем у основания. Неравномерный фронтир, который мы видим сегодня, отражает неравномерный data landscape. Сокращение этого разрыва требует осознанного, основанного на исследованиях dataset design.

Если мы хотим AI-системы, способные надежно работать в clinical contexts, ориентироваться в enterprise workflows и ответственно функционировать на разных языках и в разных культурах, мы должны рассматривать data for AI как первоклассную научную дисциплину.

AI models имеют свои research labs. У создателей AI chips есть fabrication plants. AI data нужны институты сопоставимой серьезности и амбиции.

—

New Tech Forum предоставляет площадку для технологических лидеров — включая вендоров и других внешних авторов — чтобы глубоко и широко обсуждать новые enterprise technologies. Отбор материалов субъективен и основан на том, какие технологии редакция считает важными и наиболее интересными для читателей InfoWorld. InfoWorld не принимает маркетинговые материалы к публикации и оставляет за собой право редактировать все присланные материалы. Направляйте все запросы на адрес doug_dineley@foundryco.com.

Материал — перевод статьи с английского.

Оригинал: The next AI breakthrough won’t come from bigger models, but from better data

Подписаться на новости в Telegram