GitHub Copilot CLI получил экспериментальный агент проверки Rubber Duck

Редактор с широкими полномочиями

GitHub Copilot CLI добавляет агент проверки Rubber Duck
новости
7 апр. 20263 мин

Rubber Duck использует вторую модель из другой семейства ИИ, чтобы оценивать планы основного агента, ставить под сомнение предположения и поднимать вопросы.

shutterstock 2288028173 yellow rubber duck on white background

GitHub представила экспериментальный режим Rubber Duck в GitHub Copilot CLI. Последнее дополнение к инструменту для программирования на базе ИИ использует вторую модель из другого семейства ИИ, чтобы дать второе мнение перед выполнением плана агента.

О новой функции было объявлено 6 апреля. Как сообщила GitHub, в экспериментальном режиме Rubber Duck использует вторую модель из другой семьи ИИ в качестве независимого проверяющего, оценивая планы и работу в моменты, когда обратная связь важнее всего. Rubber Duck — это специализированный агент проверки, работающий на модели из дополняющей семьи по отношению к основной сессии Copilot. Задача Rubber Duck — проверять работу агента и представлять краткий, сфокусированный список значимых замечаний, включая детали, которые основной агент мог упустить, предположения, которые стоит поставить под вопрос, и граничные случаи, которые следует учитывать.

Разработчики могут использовать/experimentalв Copilot CLI, чтобы получить доступ к Rubber Duck наряду с другими экспериментальными функциями.

При оценке Rubber Duck на SWE-Bench Pro — бенчмарке реальных задач программирования, взятых из репозиториев с открытым исходным кодом, — GitHub обнаружила, что Claude Sonnet 4.6 в связке с Rubber Duck, работающим на GPT-5.4, достиг уровня решения, приближающегося к Claude Opus 4.6, работающему в одиночку, сократив разрыв в производительности между Sonnet и Opus на 74,7%. По словам GitHub, Rubber Duck особенно помогает в сложных задачах, которые охватывают три и более файла и обычно требуют более 70 шагов. В таких задачах связка Sonnet + Rubber Duck набирает на 3,8% больше, чем базовый вариант Sonnet, и на 4,8% больше в самых сложных задачах, выявленных в ходе трех испытаний.

GitHub привела такие примеры задач, которые находит Rubber Duck:

Архитектурная ловушка (OpenLibrary/async scheduler): Rubber Duck обнаружил, что предложенный планировщик будет запускаться и сразу завершаться, не выполняя ни одной задачи, — и что даже если это исправить, одна из запланированных задач сама по себе является бесконечным циклом.
Ошибка в одной строке (OpenLibrary/Solr): Rubber Duck обнаружил цикл, который незаметно перезаписывал один и тот же ключ dict на каждой итерации. Три из четырех категорий фасетов Solr пропадали из каждого поискового запроса без какой-либо ошибки.
Конфликт между файлами (NodeBB/подтверждение по email): Rubber Duck обнаружил три файла, которые все читали из ключа Redis, который новый код перестал записывать. Интерфейс подтверждения и пути очистки были бы тихо сломаны после развертывания.

Искусственный интеллект Генеративный ИИ Разработка программного обеспечения Инструменты разработки

Paul Krill

by
Пол Крилл

Редактор с широкими полномочиями

Подписаться на Пола Крилла в X

Пол Крилл — редактор с широкими полномочиями в InfoWorld. Пол более 35 лет освещает компьютерные технологии как новостной и тематический репортер, в том числе 30 лет в InfoWorld. С 1990-х годов он специализируется на освещении инструментов и технологий разработки программного обеспечения и продолжает руководить новостным освещением платформ разработки, включая Java и .NET, а также языков программирования, включая JavaScript, TypeScript, PHP, Python, Ruby, Rust и Go. Долгое время ценимый как репортер, который ставит во главу угла точность, добросовестность и интересы читателей, Пол востребован технологическими компаниями и отраслевыми организациями, которые хотят обратиться к аудитории InfoWorld — разработчикам программного обеспечения и другим ИТ-специалистам. Пол получил награду IDG «Best Technology News Coverage».