by Пол Крилл
Редактор с широкими полномочиями
GitHub Copilot CLI добавляет агент проверки Rubber Duck
новости
7 апр. 20263 мин
Rubber Duck использует вторую модель из другой семейства ИИ, чтобы оценивать планы основного агента, ставить под сомнение предположения и поднимать вопросы.
Источник: Yasser Charisma / Shutterstock
GitHub представила экспериментальный режим Rubber Duck в GitHub Copilot CLI. Последнее дополнение к инструменту для программирования на базе ИИ использует вторую модель из другого семейства ИИ, чтобы дать второе мнение перед выполнением плана агента.
О новой функции было объявлено 6 апреля. Как сообщила GitHub, в экспериментальном режиме Rubber Duck использует вторую модель из другой семьи ИИ в качестве независимого проверяющего, оценивая планы и работу в моменты, когда обратная связь важнее всего. Rubber Duck — это специализированный агент проверки, работающий на модели из дополняющей семьи по отношению к основной сессии Copilot. Задача Rubber Duck — проверять работу агента и представлять краткий, сфокусированный список значимых замечаний, включая детали, которые основной агент мог упустить, предположения, которые стоит поставить под вопрос, и граничные случаи, которые следует учитывать.
Разработчики могут использовать/experimentalв Copilot CLI, чтобы получить доступ к Rubber Duck наряду с другими экспериментальными функциями.
При оценке Rubber Duck на SWE-Bench Pro — бенчмарке реальных задач программирования, взятых из репозиториев с открытым исходным кодом, — GitHub обнаружила, что Claude Sonnet 4.6 в связке с Rubber Duck, работающим на GPT-5.4, достиг уровня решения, приближающегося к Claude Opus 4.6, работающему в одиночку, сократив разрыв в производительности между Sonnet и Opus на 74,7%. По словам GitHub, Rubber Duck особенно помогает в сложных задачах, которые охватывают три и более файла и обычно требуют более 70 шагов. В таких задачах связка Sonnet + Rubber Duck набирает на 3,8% больше, чем базовый вариант Sonnet, и на 4,8% больше в самых сложных задачах, выявленных в ходе трех испытаний.
GitHub привела такие примеры задач, которые находит Rubber Duck:
- Архитектурная ловушка (OpenLibrary/async scheduler): Rubber Duck обнаружил, что предложенный планировщик будет запускаться и сразу завершаться, не выполняя ни одной задачи, — и что даже если это исправить, одна из запланированных задач сама по себе является бесконечным циклом.
- Ошибка в одной строке (OpenLibrary/Solr): Rubber Duck обнаружил цикл, который незаметно перезаписывал один и тот же ключ
dictна каждой итерации. Три из четырех категорий фасетов Solr пропадали из каждого поискового запроса без какой-либо ошибки. - Конфликт между файлами (NodeBB/подтверждение по email): Rubber Duck обнаружил три файла, которые все читали из ключа Redis, который новый код перестал записывать. Интерфейс подтверждения и пути очистки были бы тихо сломаны после развертывания.
Искусственный интеллектГенеративный ИИРазработка программного обеспеченияИнструменты разработки
by
Пол Крилл
Редактор с широкими полномочиями
Пол Крилл — редактор с широкими полномочиями в InfoWorld. Пол более 35 лет освещает компьютерные технологии как новостной и тематический репортер, в том числе 30 лет в InfoWorld. С 1990-х годов он специализируется на освещении инструментов и технологий разработки программного обеспечения и продолжает руководить новостным освещением платформ разработки, включая Java и .NET, а также языков программирования, включая JavaScript, TypeScript, PHP, Python, Ruby, Rust и Go. Долгое время ценимый как репортер, который ставит во главу угла точность, добросовестность и интересы читателей, Пол востребован технологическими компаниями и отраслевыми организациями, которые хотят обратиться к аудитории InfoWorld — разработчикам программного обеспечения и другим ИТ-специалистам. Пол получил награду IDG «Best Technology News Coverage».
Еще от этого автора
Показать больше
news
GitHub Copilot CLI добавляет агент проверки Rubber Duck
By Paul KrillApr 7, 20263 mins
Artificial IntelligenceDevelopment ToolsGenerative AI

opinion
Проблема масштабирования Terraform: когда инфраструктура как код становится инфраструктурой как сложностью
By Neel ShahApr 7, 202614 mins
Cloud ManagementDevelopment ToolsDevops

analysis
Чему корпоративные DevOps-команды должны учиться у SaaS
By Isaac SacolickApr 7, 20269 mins
CareersDevopsSaaS

video
Новый тип frozendict в Python
video
Как повысить производительность приложения с помощью ленивого импорта Python 3.15
video
Как запустить свой собственный маленький локальный Claude Code (ну, почти!)
Mar 26, 20267 mins
Python
![]()
Материал — перевод статьи с английского.