Как роботы учатся: краткая современная история

Прослушать статью

Раньше робототехники мечтали о больших целях, но строили маленькие машины. Они надеялись хотя бы приблизиться к поразительной сложности человеческого тела, а потом всю карьеру доводили до ума роботизированные руки для автозаводов. Целиться в C-3P0 — и в итоге получить Roomba.

Настоящей амбицией для многих из этих исследователей был робот из научной фантастики — тот, который мог бы двигаться по миру, адаптироваться к разным средам и безопасно и полезно взаимодействовать с людьми. Для тех, кого в первую очередь заботит социальная польза, такая машина могла бы помогать людям с ограниченной подвижностью, уменьшать одиночество или выполнять работу, слишком опасную для человека. Для тех, кого больше волнуют деньги, это означало бы бездонный источник бесплатной рабочей силы. В любом случае долгая история неудач заставила большинство игроков Silicon Valley с осторожностью смотреть на полезных роботов.

Сейчас это изменилось. Сами машины еще не созданы, но деньги уже идут потоком: только в 2025 году компании и инвесторы вложили в человекоподобных роботов $6,1 млрд — в четыре раза больше, чем в 2024 году.

Что произошло? Революция в том, как машины учатся взаимодействовать с миром.

Представьте, что вы хотите установить у себя дома пару роботизированных рук, и их задача будет только одна: складывать одежду. Как они должны этому научиться? Можно начать с правил. Определить тип ткани, чтобы понять, насколько сильно ее можно деформировать, прежде чем она порвется. Найти воротник рубашки. Переместить захват к левому рукаву, поднять его и сложить внутрь ровно на такое-то расстояние. Повторить для правого рукава. Если рубашка повернута, перестроить план соответственно. Если рукав перекручен, исправить это. Очень быстро число правил взлетает, но их полный учет мог бы дать надежный результат. Таково было исходное ремесло робототехники: заранее предусмотреть каждую возможность и закодировать ее в правилах.

Примерно в 2015 году передовой край начал действовать иначе: создайте цифровую симуляцию роботизированных рук и одежды, а затем выдавайте программе сигнал вознаграждения каждый раз, когда она успешно складывает вещь, и сигнал ошибки каждый раз, когда терпит неудачу. Так она становится лучше, пробуя самые разные подходы методом проб и ошибок, через миллионы итераций — почти так же, как AI научился играть в игры.

Появление ChatGPT в 2022 году ускорило нынешний бум. Обученные на огромных массивах текста large language models работают не через пробу и ошибку, а за счет того, что учатся предсказывать, какое слово должно идти следующим в предложении. Похожие модели, адаптированные к робототехнике, вскоре научились воспринимать изображения, показания датчиков и положение суставов робота и предсказывать следующее действие, которое машина должна совершить, выдавая десятки моторных команд в секунду.

Этот концептуальный сдвиг — к опоре на AI-модели, которые поглощают большие объемы данных, — кажется работающим везде, где помощник-робот должен разговаривать с людьми, перемещаться в пространстве или даже выполнять сложные задачи. И к этому добавились другие идеи о том, как реализовать новый способ обучения, например выпускать роботов в мир, даже если они еще не совершенны, чтобы они учились у той среды, в которой должны работать. Сегодня робототехники в Silicon Valley снова мечтают по-крупному. Вот как это произошло.

Jibo

Jibo

Подвижный социальный робот вел разговоры еще до эпохи LLMs.

Исследовательница робототехники MIT Синтия Бризеал представила миру робота без рук, ног и лица по имени Jibo в 2014 году. На вид он, по сути, напоминал лампу. Цель Бризеал заключалась в создании социального робота для семей, и идея собрала $3,7 млн в краудфандинговой кампании. Ранний предзаказ стоил $749.

Первые версии Jibo умели представиться и танцевать, чтобы развлекать детей, но на этом все и заканчивалось. Изначально предполагалось, что он станет своего рода воплощенным ассистентом, который сможет все — от планирования и электронной почты до рассказа историй. У него было немало преданных пользователей, но в итоге компания закрылась в 2019 году.

Робот, внешне немного похожий на строчную букву "i"
Краудфандинговая кампания стартовала в 2014 году и привлекла 4 800 предзаказов Jibo.

Если оглянуться назад, одно из главных, чего Jibo действительно не хватало, — это лучших языковых возможностей. Он конкурировал с Siri от Apple и Alexa от Amazon, а все эти технологии в то время опирались на жесткий сценарийный подход. В общих чертах, когда вы говорили с ними, программное обеспечение переводило речь в текст, анализировало, чего вы хотите, и формировало ответ из заранее одобренных фрагментов. Эти фрагменты могли быть симпатичными, но они были повторяющимися и попросту скучными — прямо-таки роботизированными. Для робота, который должен был быть социальным и ориентированным на семью, это было особенно проблемно.

То, что произошло потом, разумеется, стало революцией в том, как машины генерируют язык. Голосовой режим у любого ведущего AI-провайдера теперь увлекателен и впечатляющ, и множество hardware-стартапов пытаются — и не могут — построить продукты, которые используют это преимущество.

Но вместе с этим возник и новый риск: если запрограммированные разговоры почти не могут уйти в сторону, то сгенерированные AI могут. Некоторые популярные AI-игрушки, например, рассказывали детям о том, как найти спички и ножи.

OpenAI

Dactyl

Роботизированная рука, обученная в симуляции, пытается смоделировать непредсказуемость и изменчивость реального мира.

К 2018 году все ведущие лаборатории робототехники пытались отказаться от старых сценарных правил и обучать роботов методом проб и ошибок. OpenAI попыталась виртуально обучить свою роботизированную руку Dactyl — с помощью цифровых моделей самой руки и кубиков размером с ладонь, которыми Dactyl должен был манипулировать. На гранях кубиков были буквы и цифры; модель могла ставить задачу вроде «Поверни куб так, чтобы красная сторона с буквой O оказалась сверху».

Проблема в том, что роботизированная рука может очень хорошо справляться с этим в своей симулированной среде, но если взять эту программу и заставить ее работать на реальной версии в реальном мире, небольшие различия между ними могут все испортить. Цвета могут быть немного другими, а деформируемая резина на кончиках пальцев робота может оказаться более растяжимой, чем в симуляции.

рука робота Dactyl держит кубик Рубика
Dactyl, часть первой попытки OpenAI заняться робототехникой, обучали в симуляции решать кубики Рубика.

Решение называется domain randomization. По сути, вы создаете миллионы симулированных миров, каждый из которых немного и случайно отличается от остальных. В одном из них трение может быть ниже, в другом освещение — более жестким, в третьем цвета — темнее. Достаточно большая вариативность помогает роботам лучше манипулировать кубиком в реальном мире. Этот подход сработал для Dactyl, а через год те же базовые техники позволили сделать нечто более сложное: решать кубик Рубика (хотя это получалось только в 60% случаев, а при особенно сложных перемешиваниях — лишь в 20%).

Тем не менее ограничения симуляции означают, что сегодня этот подход играет куда меньшую роль, чем в 2018 году. OpenAI закрыла свое направление робототехники в 2021 году, но недавно снова запустила его — как сообщается, с фокусом на humanoids.

Google DeepMind

RT-2

Обучение на изображениях со всего интернета помогает роботам переводить язык в действие.

Примерно в 2022 году команда робототехники Google занималась странными вещами. 17 месяцев она раздавала людям контроллеры для роботов и снимала, как те выполняют все подряд — от поднятия пакетов чипсов до открытия банок. В итоге команда каталогизировала 700 разных задач.

Цель заключалась в создании и проверке одной из первых масштабных foundation models для робототехники. Как и в случае с large language models, идея состояла в том, чтобы подать на вход много текста, разбить его на токены в формате, с которым алгоритм может работать, а затем сгенерировать выход. RT-1 от Google получала на вход данные о том, на что смотрит робот и как расположены многочисленные части роботизированной руки; затем она принимала инструкцию и переводила ее в моторные команды, чтобы переместить робота. Когда она уже видела такие задачи раньше, то выполняла 97% из них успешно; когда же инструкция была новой, показатель успеха составлял 76%.

робот за столом с небольшими игрушками
Модель RT-2, Robotic Transformer 2, использовала интернет-данные, чтобы помочь роботам понимать, что они видят.

Вторая версия, RT-2, вышла в следующем году и пошла еще дальше. Вместо того чтобы обучаться на данных, специфичных для робототехники, она работала шире: обучалась на более общих изображениях из интернета, как vision-language models, над которыми многие исследователи тогда трудились. Это позволило роботу понимать, где именно находятся определенные объекты в сцене.

«Все это открыло совсем новые возможности», — говорит Канишка Рао, робототехник Google DeepMind, который руководил работой над обеими версиями. — «Теперь мы могли делать вещи вроде: “Поставь банку Coca-Cola рядом с фотографией Taylor Swift”».

В 2025 году Google DeepMind еще сильнее объединила миры large language models и робототехники, выпустив модель Gemini Robotics с улучшенной способностью понимать команды на естественном языке.

Covariant

RFM-1

AI-модель, которая позволяет роботизированным рукам вести себя как коллеги.

В 2017 году, еще до того как OpenAI закрыла свою первую команду по робототехнике, группа ее инженеров выделила проект Covariant, стремясь создать не научно-фантастических humanoids, а самых прагматичных из всех роботов: руку, которая могла бы поднимать и перемещать вещи на складах. После создания системы на базе foundation models, похожих на модели Google, Covariant развернула эту платформу на складах вроде тех, что управляются Crate & Barrel, и использовала их как канал для сбора данных.

К 2024 году Covariant выпустила робототехническую модель RFM-1, с которой можно было взаимодействовать как с коллегой. Если, например, показать руке множество рукавов с теннисными мячами, затем можно было дать ей команду перенести каждый рукав в отдельную зону. И робот мог ответить — возможно, предсказав, что не сможет надежно захватить предмет, а затем спросив совета, какие именно присоски ему следует использовать.

В экспериментах что-то похожее уже делалось, но Covariant запускала это в значительном масштабе. Теперь у компании были камеры и устройства для сбора данных в каждом клиентском месте, которые возвращали еще больше данных для обучения модели.

роботизированная рука на складе поднимает объект с множеством присосок, чтобы положить его в контейнер
Робот Covariant демонстрирует «induction» — типичную складскую задачу по размещению предметов на сортерах или конвейерах.

Идеально это не работало. В демонстрации в марте 2024 года с набором кухонных предметов робот растерялся, когда его попросили «вернуть банан» на прежнее место. Он поднял губку, затем яблоко, потом еще множество других предметов, прежде чем наконец выполнил задачу.

Он «не понимает новую концепцию» возвращения по собственным следам, сказал мне тогда сооснователь Питер Чен. «Но это хороший пример — пока что он может не очень хорошо работать в местах, где у вас нет хороших тренировочных данных».

Вскоре Чен и сооснователь Pieter Abbeel были наняты Amazon, который сейчас лицензирует робототехническую модель Covariant (Amazon не ответила на вопросы о том, как именно она используется, но, по оценкам, компания управляет примерно 1 300 складами только в США).

Agility Robotics

Digit

Компании тестируют этого humanoid в реальных условиях.

Новые инвестиции, которые идут в стартапы робототехники, в основном нацелены уже не на роботов, похожих на лампы или руки, а на роботов, похожих на людей. Считается, что humanoid robots смогут безболезненно входить в пространства и профессии, где сейчас работают люди, избавляя от необходимости перестраивать производственные линии под новые формы, например огромные руки.

Сказать легче, чем сделать. В тех редких случаях, когда humanoids появляются в реальных складах, они обычно ограничены тестовыми зонами и пилотными программами.

гуманоидный робот Digit ставит пластиковый контейнер на конвейерную ленту
Amazon и другие компании используют Digit, чтобы помогать перемещать транспортные контейнеры.

Тем не менее гуманоид Agility, Digit, похоже, действительно выполняет полезную работу. Его дизайн — с открытыми суставами и отчетливо нечеловеческой головой — продиктован скорее функцией, чем sci-fi эстетикой. Amazon, Toyota и GXO (логистический гигант, среди клиентов которого есть Apple и Nike) уже развернули его — и это один из первых примеров humanoid-робота, который компании воспринимают как источник реальной экономии, а не просто как новинку. Их Digits проводят дни, поднимая, перемещая и штабелируя shipping totes.

Но текущий Digit все еще очень далек от человекоподобного помощника, на которого ставит Silicon Valley. Например, он может поднимать только 35 фунтов — и каждый раз, когда Agility делает Digit сильнее, аккумулятор становится тяжелее, а заряжаться приходится чаще. Кроме того, организации по стандартизации считают, что humanoids нуждаются в более строгих правилах безопасности, чем большинство промышленных роботов, потому что они должны быть мобильными и проводить время рядом с людьми.

Но Digit показывает, что эта революция в обучении роботов не сходится к одному методу. Agility опирается на методы симуляции, похожие на те, что OpenAI использовала для обучения своей руки, а также работала с моделями Gemini от Google, чтобы помочь роботам адаптироваться к новым средам. Именно к этому индустрия пришла после более чем десятилетия экспериментов: теперь она строит по-крупному.

Deep Dive

Искусственный интеллект

OpenAI бросает все силы на создание полностью автоматизированного исследователя

Эксклюзивный разговор с главным научным сотрудником OpenAI Якобом Пачоцки о новой большой задаче компании и будущем AI.

By Will Douglas Heavenarchive page

Как Pokémon Go помогает курьерским роботам видеть мир с точностью до дюйма

Эксклюзив: AI-спин-офф Niantic обучает новую world model на основе 30 млрд изображений городских ориентиров, собранных игроками.

By Will Douglas Heavenarchive page

Этот стартап хочет изменить то, как математики занимаются математикой

Axiom Math раздает мощный новый AI-инструмент. Но пока неясно, ускорит ли он исследования настолько, насколько надеется компания.

By Will Douglas Heavenarchive page

Хотите понять текущее состояние AI? Посмотрите на эти графики.

Согласно AI Index Stanford за 2026 год, AI мчится вперед, а мы с трудом поспеваем.

By Michelle Kimarchive page


Материал — перевод статьи с английского.

Оригинал: How robots learn: A brief, contemporary history