Новый AI Edge Eloquent от Google показывает будущее офлайн-ИИ

Когда становится трудно, сильные уходят в офлайн. По крайней мере, я надеюсь, что так будет с новым поколением офлайн-инструментов ИИ вроде AI Edge Eloquent от Google.

Credit: Ba Phi / Gerd Altmann

Не знаю как вы, но я много времени провожу офлайн. И не по собственной воле. Поэтому мне нравятся новые инструменты, которые умеют работать без подключения, — такие как отличный продукт, который Google только что выпустила.

Я понимаю, что я исключение. Как цифровой кочевник, который постоянно путешествует, я сталкиваюсь с необычными проблемами со связью. Сейчас я живу на ферме в Тоскане. Это потрясающе. Мне здесь очень нравится. Но недавно в течение двух дней связь была настолько плохой, что я едва мог работать. Мне оставалось только пить кьянти и смотреть на зеленые холмы. (В пасхальное воскресенье и на следующий день — местный выходной — все сидели дома, пытаясь спасти свои интернет-соединения, из-за чего связь стала почти невозможной.)

Я часто оказываюсь в такой ситуации. Мы с женой обычно выбираем старые дома в старых районах, чаще всего в Европе или Латинской Америке, и связь там бывает плохой или вовсе отсутствует.

Я теряю соединение во время езды за рулем, в очень старых каменных зданиях или рядом с ними, в самолете и при поездках по удаленным районам.

Но даже для людей, которые не путешествуют и не перемещаются так, как я, офлайн-режим может быть осознанным выбором. Отключаться гораздо безопаснее, особенно в общественных местах вроде кофеен и аэропортов, а также при использовании одной из множества ненадежных облакоцентричных компаний. Иногда отчаянно нужно экономить заряд батареи. Иногда психологически полезно просто знать, что вы не в сети.

Инструменты могут и должны лучше работать офлайн. У меня дорогой iPhone, который всего 10 лет назад считался бы суперкомпьютером. Современный смартфон достаточно мощный, чтобы выполнять большую часть работы, которая сейчас делается в облаке.

Облачные вычисления необходимы для чат-ботов вроде ChatGPT, Perplexity, Claude и Gemini, потому что универсальные модели ИИ требуют сотен миллиардов параметров, огромных объемов RAM и колоссального количества электроэнергии, чтобы быть готовыми быстро делать все и сразу. Перенос таких нагрузок на мобильное устройство принципиально ограничивает интеллект и возможности универсального ИИ. Но отдельные задачи, такие как транскрибация, не требуют гигантских дата-центров.

Самые большие проблемы для меня — два инструмента, которыми я пользуюсь чаще всего: MyMind и Lex.

Я писал о MyMind в августе. Это инструмент для lifelogging, закладок и хранения всего подряд, который очень быстро находит нужную информацию. Он использует ИИ для автоматической разметки и снимает с пользователя работу и по сохранению, и по поиску информации.

К сожалению, без подключения я лишаюсь MyMind. У него просто нет офлайн-возможностей. Поэтому, когда я не в сети и хочу что-то сохранить или вспомнить, я не могу этого сделать. Чем сильнее я полагаюсь на этот протез памяти, тем сильнее офлайн вызывает у меня амнезию. Это моя главная претензия к MyMind.

Computerworld Smart Answers

What is this?

Explore related questions

Ask

Я также рассказывал вам о Lex. Lex — это по сути текстовый редактор со встроенными инструментами ИИ, которые не пишут за вас (и не делают вас хуже как автора), а указывают на проблемы и советуют так, чтобы улучшить ваш текст.

Lex тоже не работает офлайн. А жаль, потому что его главные альтернативы, такие как Google Docs и Apple Pages, умеют это делать. Вы можете просто пользоваться ими без подключения, а позже, когда появится интернет, они синхронизируются с облаком. Отсутствие офлайн-поддержки — главная причина, по которой я часто думаю отменить подписку и вернуться к Pages. (Замечу, что я использую Bluetooth-клавиатуру с телефоном, чтобы действительно писать колонки, рассылки, посты в блог и даже книги.)

И MyMind, и Lex используют ИИ, и я ожидаю, что в самом ближайшем будущем мы увидим переход от универсальных чат-ботов к меньшим, специализированным ИИ-инструментам вроде этих, работающим на edge-устройствах или прямо на наших телефонах.

Один хороший пример такого сдвига — новый инструмент Google под названием AI Edge Eloquent.

Говорите в смартфон

В понедельник Google выпустила бесплатное приложение для офлайн-диктовки, доступное только на iOS и только на английском языке. На первый взгляд диктовка не звучит особенно интересно, но Google встроила в приложение несколько функций, которые делают его по-настоящему сильным.

Во-первых, оно использует ИИ: модели распознавания речи на базе Gemma работают локально на телефоне. Приложение не просто фиксирует то, что вы сказали, а понимает, что вы хотели сказать. То есть оно игнорирует ваши «э-э» и «ну» и повторы, сохраняя только чистые слова, которые вы действительно имели в виду. (Если включить облачную обработку, оно работает еще лучше.) Оно очень хорошо автоматически расставляет знаки препинания.

Когда вы заканчиваете говорить, приложение автоматически отправляет очищенный текст в буфер обмена. Это значит, что вы можете наговорить текст в приложение, а затем просто переключиться в текстовый редактор, приложение для соцсетей, почту или другое приложение и вставить результат.

Приложение может переписывать ваши транскрипты, используя один из четырех стандартных стилей:

Key points — превращает речь в маркированный список

Formal — переводит текст в профессиональный тон

Short — кратко пересказывает сообщение

Long — расширяет исходный текст

(Для большинства текстов я не советую такие стилевые сокращения; я рекомендую писать своим собственным стилем.)

После диктовки можно нажать кнопку остановки или паузы. Это очень удачная пара опций, потому что если вы работаете над длинным материалом, кнопка паузы позволяет собраться с мыслями, немного порыться в источниках и затем продолжить, получив в итоге весь текст в буфере обмена.

Самая неожиданная функция — обучение пользовательским словам. Например, приложение учится на ваших правках, на ручном добавлении слов или — внимание — на истории переписки Gmail (кнопка запрашивает разрешение, и вам нужно явно войти в Gmail). Опция Gmail подтягивает не только профессиональный жаргон, но и имена, названия брендов, которые вы обсуждали, аббревиатуры, иностранные слова, географические названия и многое другое.

И наконец, приложение заметно показывает «usage stats», включая число слов, число слов в минуту, среднюю скорость диктовки, общее количество надиктованных слов и общее число «polishing edits», сделанных приложением.

AI Edge Eloquent фактически sherlocks Wispr Flow и Willow, каждое из которых стоит $15 в месяц. Оно также sherlocks SuperWhisper, который стоит $85 в год. (В терминологии Кремниевой долины «sherlocking» — это когда крупная компания копирует ключевую функцию продукта конкурента и тем самым делает его устаревшим.)

Короче говоря, AI Edge Eloquent — почти идеальный и чрезвычайно полезный инструмент для любого, кто хочет что-то диктовать.

Медленный рост offline AI

Я вижу и другие инструменты, которые появляются вокруг идеи, что ИИ должен работать на edge-устройствах и офлайн.

Один интересный новый инструмент, выпущенный на этой неделе, называется WarClaw — его создала стартап-компания Edgerunner AI из Белвью, штат Вашингтон. Компания называет инструмент «digital adjutant» (adjutant — это военный офицер, который служит помощником командира).

Компания утверждает, что WarClaw был создан бывшими военными для действующих военнослужащих. По словам компании, это защищенный операционный слой поверх OpenClaw. (Я уже писал об OpenClaw ранее в этом году, как и мой коллега Steven Vaughan-Nichols, который объяснял, насколько невероятно небезопасен OpenClaw.

Программное обеспечение предназначено для работы в боевых условиях в так называемых DDIL-сценариях (Denied, Disconnected, Intermittent и Low bandwidth).

WarClaw работает на отключенном мобильном устройстве и был обучен на специализированных военных данных. Он автоматизирует планирование миссий, составление расписаний и анализ информации. Удивительно, но он может напрямую управлять офисными инструментами, такими как Microsoft Word, PowerPoint, Excel, Slack, веб-браузеры и электронная почта.

Компания уже получила контракты на поставку WarClaw трем родам войск США.

Хотя WarClaw создан для военных, я думаю, что бизнес-пользователям такой инструмент тоже мог бы принести пользу. Например, было бы здорово иметь офлайн-ассистента во время деловых поездок в небезопасные с точки зрения данных места, например в Китай, и в такие среды, как аэропорты.

Я бы хотел видеть, как почти все ИИ-задачи, которые сейчас требуют подключения, превращаются в приложения, работающие локально, офлайн на телефоне. Помимо очевидного удобства, это еще и большая возможность для Google и Apple: они могут привязать свои ИИ-инструменты к все более мощным смартфонам, что даст покупателям телефонов вескую причину чаще обновлять железо.

AI disclosure_: я не использую ИИ для написания текстов. Слова, которые вы видите здесь, мои. Я использую разные ИИ-инструменты через Kagi Assistant (disclosure: мой сын работает в Kagi) — в дополнение к Kagi Search, Google Search и телефонным звонкам для исследования и проверки фактов. Я использую текстовый редактор Lex, у которого есть инструменты ИИ, а после написания текста использую инструменты проверки грамматики Lex, чтобы находить опечатки и ошибки и предлагать замену слов. Вот почему я раскрываю свое использование ИИ и советую вам делать то же самое._

Материал — перевод статьи с английского.

Оригинал: Google’s new AI app is a glimpse of the future

Подписаться на новости в Telegram