GitHub Copilot CLI получил экспериментальный агент проверки Rubber Duck

by Пол Крилл

Редактор с широкими полномочиями

GitHub Copilot CLI добавляет агент проверки Rubber Duck
новости
7 апр. 20263 мин

Rubber Duck использует вторую модель из другой семейства ИИ, чтобы оценивать планы основного агента, ставить под сомнение предположения и поднимать вопросы.

shutterstock 2288028173 yellow rubber duck on white background

Источник: Yasser Charisma / Shutterstock

GitHub представила экспериментальный режим Rubber Duck в GitHub Copilot CLI. Последнее дополнение к инструменту для программирования на базе ИИ использует вторую модель из другого семейства ИИ, чтобы дать второе мнение перед выполнением плана агента.

О новой функции было объявлено 6 апреля. Как сообщила GitHub, в экспериментальном режиме Rubber Duck использует вторую модель из другой семьи ИИ в качестве независимого проверяющего, оценивая планы и работу в моменты, когда обратная связь важнее всего. Rubber Duck — это специализированный агент проверки, работающий на модели из дополняющей семьи по отношению к основной сессии Copilot. Задача Rubber Duck — проверять работу агента и представлять краткий, сфокусированный список значимых замечаний, включая детали, которые основной агент мог упустить, предположения, которые стоит поставить под вопрос, и граничные случаи, которые следует учитывать.

Разработчики могут использовать/experimentalв Copilot CLI, чтобы получить доступ к Rubber Duck наряду с другими экспериментальными функциями.

При оценке Rubber Duck на SWE-Bench Pro — бенчмарке реальных задач программирования, взятых из репозиториев с открытым исходным кодом, — GitHub обнаружила, что Claude Sonnet 4.6 в связке с Rubber Duck, работающим на GPT-5.4, достиг уровня решения, приближающегося к Claude Opus 4.6, работающему в одиночку, сократив разрыв в производительности между Sonnet и Opus на 74,7%. По словам GitHub, Rubber Duck особенно помогает в сложных задачах, которые охватывают три и более файла и обычно требуют более 70 шагов. В таких задачах связка Sonnet + Rubber Duck набирает на 3,8% больше, чем базовый вариант Sonnet, и на 4,8% больше в самых сложных задачах, выявленных в ходе трех испытаний.

GitHub привела такие примеры задач, которые находит Rubber Duck:

  • Архитектурная ловушка (OpenLibrary/async scheduler): Rubber Duck обнаружил, что предложенный планировщик будет запускаться и сразу завершаться, не выполняя ни одной задачи, — и что даже если это исправить, одна из запланированных задач сама по себе является бесконечным циклом.
  • Ошибка в одной строке (OpenLibrary/Solr): Rubber Duck обнаружил цикл, который незаметно перезаписывал один и тот же ключ dict на каждой итерации. Три из четырех категорий фасетов Solr пропадали из каждого поискового запроса без какой-либо ошибки.
  • Конфликт между файлами (NodeBB/подтверждение по email): Rubber Duck обнаружил три файла, которые все читали из ключа Redis, который новый код перестал записывать. Интерфейс подтверждения и пути очистки были бы тихо сломаны после развертывания.

Искусственный интеллектГенеративный ИИРазработка программного обеспеченияИнструменты разработки


Paul Krill

by
Пол Крилл

Редактор с широкими полномочиями

  1. Подписаться на Пола Крилла в X

Пол Крилл — редактор с широкими полномочиями в InfoWorld. Пол более 35 лет освещает компьютерные технологии как новостной и тематический репортер, в том числе 30 лет в InfoWorld. С 1990-х годов он специализируется на освещении инструментов и технологий разработки программного обеспечения и продолжает руководить новостным освещением платформ разработки, включая Java и .NET, а также языков программирования, включая JavaScript, TypeScript, PHP, Python, Ruby, Rust и Go. Долгое время ценимый как репортер, который ставит во главу угла точность, добросовестность и интересы читателей, Пол востребован технологическими компаниями и отраслевыми организациями, которые хотят обратиться к аудитории InfoWorld — разработчикам программного обеспечения и другим ИТ-специалистам. Пол получил награду IDG «Best Technology News Coverage».

Еще от этого автора

Показать больше

news

GitHub Copilot CLI добавляет агент проверки Rubber Duck

By Paul KrillApr 7, 20263 mins
Artificial IntelligenceDevelopment ToolsGenerative AI
Image

opinion

Проблема масштабирования Terraform: когда инфраструктура как код становится инфраструктурой как сложностью

By Neel ShahApr 7, 202614 mins
Cloud ManagementDevelopment ToolsDevops
Image

analysis

Чему корпоративные DevOps-команды должны учиться у SaaS

By Isaac SacolickApr 7, 20269 mins
CareersDevopsSaaS
Image

video

Новый тип frozendict в Python

Apr 2, 20264 mins
Python
Image

video

Как повысить производительность приложения с помощью ленивого импорта Python 3.15

Mar 31, 20266 mins
Python
Image

video

Как запустить свой собственный маленький локальный Claude Code (ну, почти!)

Mar 26, 20267 mins
Python
Image


Материал — перевод статьи с английского.

Оригинал: GitHub Copilot CLI adds Rubber Duck review agent