LLMs+: как LLM станут дешевле, дольше и надежнее решать сложные задачи

Прослушать статью

10 Things That Matter in AI Right NowSee the full list

Когда ChatGPT был запущен как экспериментальный прототип в конце 2022 года, чатбот OpenAI стал повседневным универсальным приложением для сотен миллионов людей. LLM вроде ChatGPT были новым будущим: вся технологическая индустрия оказалась охвачена этим пожаром, а компании наперегонки запускали конкурирующие продукты.

Пепел старого технологического мира еще не улегся, но это не остановило людей от вопроса о том, что будет дальше. Спойлер: следующая большая вещь после LLM — это снова LLM. Но лучше. Назовем их LLMs+.

Задача в том, чтобы заставить LLM справляться со сложными и многосоставными проблемами, на решение которых у людей уходят дни или недели. Если они должны помочь нам решать самые трудные задачи (а это заявленная цель ведущих лабораторий), им нужно уметь работать самостоятельно дольше.

Чтобы этого добиться, должно произойти несколько вещей. Во-первых, LLM должны стать более эффективными и дешевыми в эксплуатации. Некоторые из самых заметных прорывов происходят именно здесь. Один из подходов, называемый mixture-of-experts, разбивает LLM на более мелкие части и наделяет каждую экспертизой в отдельном типе задач. Это означает, что в конкретный момент нужно активировать лишь часть модели.

Еще один способ сделать LLM более эффективными — отказаться от transformers, типа нейросети, на котором сегодня основано почти все такие модели, в пользу diffusion models, альтернативного типа нейросети, который чаще используют для генерации изображений и видео. Есть и более экспериментальные подходы. В прошлом году китайская AI-компания DeepSeek показала способ кодировать текст в изображениях, что снижает вычислительные затраты.

Еще одна важнейшая область прогресса связана с тем, что называют context window LLM. Это объем текста (или видео), который модель может принять за один раз; по сути, ее рабочая память. Пару лет назад LLM могли обрабатывать несколько тысяч tokens (слов или частей слов) за один проход, то есть несколько десятков страниц текста. Последние модели теперь имеют context window длиной до миллиона tokens — целую стопку книг. Но чем больше context window и чем длиннее задача, тем выше вероятность, что модели собьются с курса или забудут, что делали. И здесь тоже происходят прорывы. Одна недавняя статья исследователей MIT CSAIL представила то, что они называют recursive LLMs. Вместо того чтобы принимать огромный context window целиком, recursive LLMs разбивают входные данные на фрагменты и отправляют каждый фрагмент копии самой себя, которая, в свою очередь, может снова разбить эти фрагменты и отправить результаты еще большему числу копий. Кажется, что несколько LLM, обрабатывающих меньшие куски информации, гораздо надежнее справляются с длинными и сложными задачами. В результате получается LLM, но уже не тот, к которому мы привыкли.

Deep Dive

Artificial intelligence

OpenAI бросает все силы на создание полностью автоматизированного исследователя

Эксклюзивный разговор с главным научным сотрудником OpenAI Якобом Пахоцким о новой большой цели компании и будущем AI.

Will Douglas Heavenarchive page

Как Pokémon Go дает роботам-доставщикам сверхточное представление о мире

Эксклюзив: AI-спин-офф Niantic обучает новую world model на основе 30 миллиардов изображений городских ориентиров, собранных игроками.

Will Douglas Heavenarchive page

Хотите понять текущее состояние AI? Посмотрите на эти графики

Согласно Stanford AI Index 2026, AI набирает скорость, а мы едва за ним успеваем.

Michelle Kim archive page

Этот стартап хочет изменить то, как математики занимаются математикой

Axiom Math раздает мощный новый AI-инструмент бесплатно. Но еще предстоит понять, ускорит ли он исследования настолько, насколько надеется компания.

Will Douglas Heavenarchive page

Оставайтесь на связи

Узнавайте о специальных предложениях, главных материалах, предстоящих мероприятиях и многом другом.


Материал — перевод статьи с английского.

Оригинал: LLMs+