LLMs+: как LLM станут дешевле, дольше и надежнее решать сложные задачи

Прослушать статью

10 Things That Matter in AI Right NowSee the full list

Когда ChatGPT был запущен как экспериментальный прототип в конце 2022 года, чатбот OpenAI стал повседневным универсальным приложением для сотен миллионов людей. LLM вроде ChatGPT были новым будущим: вся технологическая индустрия оказалась охвачена этим пожаром, а компании наперегонки запускали конкурирующие продукты.

Пепел старого технологического мира еще не улегся, но это не остановило людей от вопроса о том, что будет дальше. Спойлер: следующая большая вещь после LLM — это снова LLM. Но лучше. Назовем их LLMs+.

Задача в том, чтобы заставить LLM справляться со сложными и многосоставными проблемами, на решение которых у людей уходят дни или недели. Если они должны помочь нам решать самые трудные задачи (а это заявленная цель ведущих лабораторий), им нужно уметь работать самостоятельно дольше.

Чтобы этого добиться, должно произойти несколько вещей. Во-первых, LLM должны стать более эффективными и дешевыми в эксплуатации. Некоторые из самых заметных прорывов происходят именно здесь. Один из подходов, называемый mixture-of-experts, разбивает LLM на более мелкие части и наделяет каждую экспертизой в отдельном типе задач. Это означает, что в конкретный момент нужно активировать лишь часть модели.

Еще один способ сделать LLM более эффективными — отказаться от transformers, типа нейросети, на котором сегодня основано почти все такие модели, в пользу diffusion models, альтернативного типа нейросети, который чаще используют для генерации изображений и видео. Есть и более экспериментальные подходы. В прошлом году китайская AI-компания DeepSeek показала способ кодировать текст в изображениях, что снижает вычислительные затраты.

Еще одна важнейшая область прогресса связана с тем, что называют context window LLM. Это объем текста (или видео), который модель может принять за один раз; по сути, ее рабочая память. Пару лет назад LLM могли обрабатывать несколько тысяч tokens (слов или частей слов) за один проход, то есть несколько десятков страниц текста. Последние модели теперь имеют context window длиной до миллиона tokens — целую стопку книг. Но чем больше context window и чем длиннее задача, тем выше вероятность, что модели собьются с курса или забудут, что делали. И здесь тоже происходят прорывы. Одна недавняя статья исследователей MIT CSAIL представила то, что они называют recursive LLMs. Вместо того чтобы принимать огромный context window целиком, recursive LLMs разбивают входные данные на фрагменты и отправляют каждый фрагмент копии самой себя, которая, в свою очередь, может снова разбить эти фрагменты и отправить результаты еще большему числу копий. Кажется, что несколько LLM, обрабатывающих меньшие куски информации, гораздо надежнее справляются с длинными и сложными задачами. В результате получается LLM, но уже не тот, к которому мы привыкли.

Deep Dive

Оставайтесь на связи

Узнавайте о специальных предложениях, главных материалах, предстоящих мероприятиях и многом другом.

Материал — перевод статьи с английского.

Оригинал: LLMs+

Подписаться на новости в Telegram

LLMs+: как LLM станут дешевле, дольше и надежнее решать сложные задачи

Deep Dive

Artificial intelligence

OpenAI бросает все силы на создание полностью автоматизированного исследователя

Как Pokémon Go дает роботам-доставщикам сверхточное представление о мире

Хотите понять текущее состояние AI? Посмотрите на эти графики

Этот стартап хочет изменить то, как математики занимаются математикой

Оставайтесь на связи

Больше записей

Как AI-модели используют данные о криптовалютах в реальном времени для анализа рыночного поведения

Что такое Codex: AI-агент OpenAI для передачи рабочих задач

Настройки Codex: персонализация, предотвращение сна, уровень детализации и аватар

Плагины и skills: как Codex подключается к инструментам и следует рабочим процессам