Physical AI поднимает вопросы управления автономными системами

Прослушать статью

Управление Physical AI становится сложнее по мере того, как автономные AI-системы переходят в роботов, датчики и промышленное оборудование. Вопрос не только в том, могут ли AI-агенты выполнять задачи. Важно и то, как их действия тестируются, отслеживаются и останавливаются при взаимодействии с реальными системами.

Промышленная робототехника уже дает широкую основу для этого обсуждения. По данным International Federation of Robotics, в 2024 году по всему миру было установлено 542 000 промышленных роботов, что более чем вдвое превышает годовой уровень десятилетней давности. Организация ожидает, что в 2025 году установки достигнут 575 000 единиц, а к 2028 году превысят 700 000.

Исследователи рынка также используют ярлык Physical AI для более широкого круга систем, включая робототехнику, edge computing и автономные машины. Grand View Research оценила мировой рынок Physical AI в 81,64 млрд долларов США в 2025 году и прогнозирует рост до 960,38 млрд долларов США к 2033 году, хотя сама категория зависит от того, как вендоры определяют интеллект в физических системах.

От вывода модели к физическому действию

Грань между Physical AI и обычной программной автоматизацией проходит по реальному миру: такие системы работают рядом с рабочими местами, инфраструктурой и людьми. Кроме того, они могут быть связаны с оборудованием, где требуются четкие ограничения по безопасности. Вывод модели может стать движением робота или командой для машины. Он также может стать решением на основе данных с датчиков. Поэтому ограничения безопасности и пути эскалации становятся частью проектирования системы.

Работа Google DeepMind в робототехнике — один из последних примеров того, как AI-модели адаптируют под такую среду. В марте 2025 года компания представила Gemini Robotics и Gemini Robotics-ER, описав их как модели на базе Gemini 2.0 для робототехники и embodied AI. Gemini Robotics — это vision-language-action-модель, предназначенная для прямого управления роботами, а Gemini Robotics-ER фокусируется на embodied reasoning, включая пространственное понимание и планирование задач.

Роботу на такой модели может потребоваться распознать объект, понять инструкцию и спланировать последовательность движений. Ему также нужно оценить, корректно ли задача выполнена. Это создает задачу управления, в которой учитываются и поведение модели, и механические ограничения системы.

Google DeepMind заявила, что полезным роботам нужны generality, interactivity и dexterity. Generality охватывает незнакомые объекты и среды. Interactivity связана с вводом со стороны человека и меняющимися условиями. Dexterity относится к физическим задачам, требующим точных движений.

В материалах запуска Google DeepMind сообщала, что Gemini Robotics может следовать инструкциям на естественном языке и выполнять многошаговые задачи манипулирования. Среди примеров были складывание бумаги, укладка предметов в сумку и работа с объектами, не встречавшимися при обучении.

Технические требования к Physical AI шире, чем понимание языка. Системам нужны визуальное восприятие и пространственное рассуждение. Им также требуются планирование задач и success detection. В робототехнике success detection особенно важен, потому что система должна решить, завершена ли задача, стоит ли повторить попытку или следует остановиться.

Gemini Robotics-ER 1.6 от Google DeepMind, представленная в апреле 2026 года, показывает, как эти функции упаковываются в новые модели. Компания описывает модель как поддерживающую пространственную логику, планирование задач и success detection, а также как способную рассуждать через промежуточные шаги и решать, двигаться ли дальше или попробовать еще раз.

В документации для разработчиков Google говорится, что Gemini Robotics-ER 1.6 доступна в preview через Gemini API. В документации модель описана как vision-language-модель, которая переносит agentic-возможности Gemini в робототехнику. Эти возможности включают визуальную интерпретацию, пространственное рассуждение и планирование на основе команд на естественном языке.

Google AI Studio предоставляет среду разработки для работы с моделями Gemini, а Gemini API — способ интегрировать эти модели в приложения. В контексте embodied AI это приближает тестирование и prompting к разработчикам, создающим agentic-приложения.

Контроль безопасности переходит в проектирование системы

Управление становится сложнее, когда такие системы могут вызывать инструменты, генерировать код или запускать действия. Контроли должны определять, к каким данным система может получить доступ, какие инструменты она может использовать, какие действия требуют одобрения человека и как фиксируется активность для последующей проверки.

Исследование доверия к AI от McKinsey за 2026 год указывает на ту же проблему в enterprise AI в целом. Компания выяснила, что только около трети организаций сообщили о зрелости уровня три и выше в стратегии, governance и governance для agentic AI, хотя AI-системы берут на себя все более автономные функции.

В робототехнике безопасность включает и физическое поведение машины. Google DeepMind описывает безопасность роботов как многоуровневую задачу, охватывающую низкоуровневые контроли, такие как предотвращение столкновений, ограничения силы и устойчивость, а также более высокоуровневое рассуждение о том, безопасно ли запрошенное действие в конкретном контексте.

Компания также представила ASIMOV — датасет для оценки semantic safety в робототехнике и embodied AI. По словам Google DeepMind, датасет предназначен для проверки того, понимают ли системы инструкции, связанные с безопасностью, и способны ли избегать небезопасного поведения в физических условиях.

Те же контроли, которые применяются к software agents, сложнее управлять, когда системы подключены к роботам, датчикам или промышленному оборудованию. Сюда входят права доступа, audit trails и поведение отказа. Также сюда относятся пути эскалации и тестирование.

Такие фреймворки, как NIST AI Risk Management Framework и ISO/IEC 42001, задают структуру управления рисками AI и ответственностью на протяжении всего жизненного цикла системы. В Physical AI эти контроли должны учитывать поведение модели, подключенные машины и среду эксплуатации.

Google DeepMind также сотрудничала с робототехническими компаниями в рамках развития embodied AI. В марте 2025 года компания сообщила о партнерстве с Apptronik по человекоподобным роботам на базе Gemini 2.0 и назвала Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools среди trusted testers для Gemini Robotics-ER.

В обновлении 2026 года также упоминалась работа с Boston Dynamics, связанная с робототехническими задачами, такими как считывание приборов. Такой сценарий зависит от визуального понимания, планирования задач и надежной оценки физических условий.

Physical AI применяется в промышленной инспекции, производстве и логистике. Оно также применимо к объектам инфраструктуры и складам. В этих средах системы должны интерпретировать реальные условия и действовать в пределах заданных ограничений. Вопрос governance состоит в том, как эти ограничения задаются до того, как автономным системам разрешат принимать или выполнять решения.

Google DeepMind и Google AI Studio указаны как технологические партнеры хакатона для AI & Big Data Expo North America 2026, который пройдет 18–19 мая в San Jose McEnery Convention Center.

(Фото: Mitchell Luo)

См. также: Управление AI-агентами выходит на первый план, поскольку регуляторы указывают на пробелы в контроле

Хотите узнать больше об AI и big data от лидеров отрасли? Посетите AI & Big Data Expo, которая пройдет в Amsterdam, California и London. Это масштабное мероприятие входит в TechEx и проводится совместно с другими ведущими технологическими событиями; нажмите здесь для подробностей.

AI News работает на платформе TechForge Media. Другие предстоящие корпоративные технологические события и вебинары можно посмотреть здесь.

Материал — перевод статьи с английского.

Оригинал: Physical AI raises governance questions for autonomous systems

Подписаться на новости в Telegram