Новый инструмент механистической интерпретируемости Goodfire Silico помогает отлаживать LLM

Прослушать статью

Стартап Goodfire из Сан-Франциско представил новый инструмент Silico, который позволяет исследователям и инженерам заглядывать внутрь AI-модели и во время обучения менять ее параметры — настройки, определяющие поведение модели. Это может дать создателям моделей более тонкий контроль над тем, как строится эта технология, чем считалось возможным раньше.

По словам Goodfire, Silico — первый готовый к использованию инструмент такого рода, который помогает разработчикам отлаживать все этапы процесса, от построения набора данных до обучения модели.

Компания говорит, что ее миссия — сделать создание AI-моделей менее похожим на алхимию и более похожим на науку. Да, LLM вроде ChatGPT и Gemini умеют делать удивительные вещи. Но никто точно не знает, как и почему они работают, а это затрудняет исправление ошибок и блокировку нежелательного поведения.

«Мы увидели, как растет разрыв между тем, насколько хорошо модели понимают, и тем, насколько широко их уже внедряют», — говорит CEO Goodfire Эрик Хо в эксклюзивном разговоре с MIT Technology Review перед запуском Silico. «Я думаю, что сегодня в каждом крупном frontier lab доминирует ощущение, будто нужно просто больше масштаба, больше вычислений, больше данных — и тогда вы получите AGI [artificial general intelligence], а все остальное не имеет значения. А мы говорим: нет, есть лучший путь».

Goodfire — одна из немногих компаний, наряду с такими лидерами отрасли, как Anthropic, OpenAI и Google DeepMind, которая развивает метод под названием механистическая интерпретируемость. Он призван понять, что происходит внутри AI-модели при выполнении задачи, картируя ее нейроны и пути между ними. (MIT Technology Review включил механистическую интерпретируемость в число 10 Breakthrough Technologies 2026 года.)

Goodfire хочет использовать этот подход не только для аудита моделей — то есть изучения уже обученных систем, — но и для помощи в проектировании моделей с самого начала.

«Мы хотим убрать метод проб и ошибок и превратить обучение моделей в точную инженерию», — говорит Хо. «А это значит раскрыть ручки и регуляторы, чтобы действительно использовать их в процессе обучения».

Goodfire уже применяла свои методы и инструменты, чтобы менять поведение LLM, например снижать число галлюцинаций, которые они генерируют. Теперь с Silico компания упаковывает многие из этих внутренних методик и выпускает их как продукт.

Инструмент использует agents, чтобы автоматизировать большую часть сложной работы. «Agents уже достаточно сильны, чтобы выполнять большую часть работы по интерпретируемости, которую мы раньше делали с помощью людей», — говорит Хо. «Именно эту брешь нужно было закрыть, прежде чем платформа стала действительно жизнеспособной для самостоятельного использования клиентами».

Леонард Береска, исследователь Амстердамского университета, работавший над механистической интерпретируемостью, считает, что Silico выглядит полезным инструментом. Но он скептически относится к более амбициозным заявлениям Goodfire. «По сути, они добавляют точность в алхимию», — говорит он. «Называть это инженерией звучит более принципиально, чем оно есть на самом деле».

Картирование моделей

Silico позволяет приблизить отдельные части обученной модели, например отдельные нейроны или группы нейронов, и проводить эксперименты, чтобы понять, что именно они делают. (При условии, что у вас есть доступ к внутреннему устройству модели. Большинство людей не смогут использовать Silico, чтобы копаться внутри ChatGPT или Gemini, но зато его можно применять для анализа параметров многих open-source моделей.) Затем можно проверить, какие входные данные заставляют разные нейроны активироваться, и проследить пути вверх и вниз от нейрона, чтобы увидеть, как на него влияют другие нейроны и как он, в свою очередь, влияет на них.

Например, Goodfire нашла внутри open-source модели Qwen 3 нейрон, связанный с так называемой trolley problem. Активация этого нейрона меняла ответы модели, заставляя ее формулировать выводы как явные моральные дилеммы. «Когда этот нейрон активен, происходят всякие странные вещи», — говорит Хо.

Выявление источника такого необычного поведения сегодня уже довольно стандартная практика. Но Goodfire хочет упростить именно его настройку. С помощью Silico разработчики теперь могут менять параметры, связанные с отдельными нейронами, чтобы усиливать или подавлять определенное поведение.

В другом примере исследователи Goodfire спросили модель, должна ли компания раскрывать, что ее AI в 0,3% случаев ведет себя обманчиво, затрагивая 200 миллионов пользователей. Модель ответила «нет», сославшись на негативный бизнес-эффект такого раскрытия.

Изучив модель изнутри, исследователи обнаружили, что усиление нейронов, связанных с прозрачностью и раскрытием информации, меняло ответ с «нет» на «да» в девяти случаях из десяти. «У модели уже была схема этического рассуждения, но ее подавляла оценка коммерческого риска», — говорит Хо.

Подстройка значений модели таким образом — лишь один из подходов. Silico также может помочь направлять процесс обучения, отфильтровывая определенные обучающие данные, чтобы не закреплять нежелательные значения для некоторых параметров с самого начала.

Например, многие модели скажут вам, что 9.11 больше, чем 9.9. Если заглянуть внутрь модели, можно обнаружить, что на нее влияют нейроны, связанные с Библией, где стих 9.9 идет перед 9.11, или с кодовыми репозиториями, где последовательные обновления нумеруются как 9.9, 9.10, 9.11 и так далее. Используя эту информацию, модель можно переобучить так, чтобы во время вычислений она избегала своих «библейских» нейронов.

Выпуская Silico, Goodfire хочет передать техники, ранее доступные лишь нескольким топовым лабораториям, в руки небольших компаний и исследовательских команд, которые хотят создать собственную модель или адаптировать open-source-модель. Инструмент будет доступен за плату, размер которой будет определяться индивидуально в зависимости от требований клиента (Goodfire отказалась раскрыть конкретные цены).

«Если мы сможем сделать обучение моделей гораздо более похожим на разработку программного обеспечения, нет причин, по которым не может появиться гораздо больше компаний, создающих модели под свои нужды», — говорит Хо.

Береска согласен, что такие инструменты, как Silico, могут помочь компаниям создавать более надежные модели. Он считает, что эти методы могут быть критически важны для safety-critical приложений в здравоохранении и финансах.

«У frontier labs уже есть внутренние команды по интерпретируемости», — добавляет он. «Silico вооружает следующий уровень компаний, для которых ценность в том, чтобы не нанимать исследователей по интерпретируемости».

Deep Dive

Искусственный интеллект

OpenAI бросает все силы на создание полностью автоматизированного исследователя

Эксклюзивный разговор с главным научным сотрудником OpenAI Якубом Пахоцким о новой большой задаче компании и будущем AI.

Как Pokémon Go помогает доставочным роботам видеть мир с точностью до сантиметра

Эксклюзив: AI-спин-офф Niantic обучает новую world model на основе 30 миллиардов изображений городских ориентиров, собранных игроками.

Хотите понять текущее состояние AI? Посмотрите на эти графики

Согласно AI Index Стэнфорда 2026 года, AI мчится вперед, а мы едва поспеваем.

Этот стартап хочет изменить то, как математики занимаются математикой

Axiom Math бесплатно раздает мощный новый AI-инструмент. Но еще неизвестно, ускорит ли он исследования так сильно, как надеется компания.

Материал — перевод статьи с английского.

Оригинал: This startup’s new mechanistic interpretability tool lets you debug LLMs

Подписаться на новости в Telegram