Базы данных без дисков: что происходит, когда хранилище перестает быть узким местом
Когда вы убираете зависимость от локального хранилища, база данных становится активным движком реального времени, а не просто местом для хранения данных.
В 2021 году я разрабатывал ПО для аэрокосмического производителя и встретился с командой машинного обучения, чтобы обсудить новые подходы к отслеживанию FOD (free-orbiting debris), то есть свободно перемещающегося мусора, который представляет серьезную угрозу для безопасности и операций в отрасли. Меня поразили не алгоритмы и не оборудование для трекинга, а объемы данных, которые при этом создавались: от терабайт до петабайт.
Проблемы старой школы — ограниченные аппаратные ресурсы и неэффективное сжатие данных — тормозили как передовые модели visual learning, так и традиционные решения для трекинга. Команда была сильной и могла быстро тонко настраивать модели, но настоящая задача заключалась в том, чтобы инфраструктура росла вместе с ними.
В аэрокосмической отрасли производительность зависит от того, как быстро системы могут поглощать и интерпретировать огромные потоки телеметрии, а хранилище часто оказывается скрытым ограничителем. Когда за один цикл испытаний генерируются терабайты и петабайты данных, даже краткая задержка на уровне storage становится узким местом. Несколько миллисекунд между тем, что происходит, и тем, что система может записать, проиндексировать или извлечь, не просто замедляют процесс. Они накапливаются на протяжении всего прогона.
Традиционные базы данных создавались вокруг ограничений дисков и batch-нагрузок. Но что происходит, когда эти ограничения больше не определяют возможное?
Переход к diskless
Diskless-архитектуры обходят традиционные ограничения, отделяя вычисления от хранения и убирая локальную персистентность из критического пути. Данные загружаются и индексируются в памяти для мгновенной доступности, а object storage обеспечивает надежную и эластичную основу под этим слоем. В результате база данных ускоряет и прием данных, и их извлечение, не жертвуя сохранностью.
Такая схема дает лучшее из двух миров: эластичность и надежность object storage в сочетании со скоростью in-memory caching. Вычисления и storage масштабируются независимо. Системы могут непрерывно расти, автоматически восстанавливаться и подстраиваться под меняющиеся нагрузки без запланированных простоев и ручного вмешательства.
Diskless-дизайн означает, что данные можно загружать, запрашивать и использовать в реальном времени без компромиссов между стоимостью, производительностью и масштабом.
Почему диски стали узким местом
Традиционные базы данных строились вокруг ограничений дисков и транзакционных нагрузок, где задержка между загрузкой и чтением не так важна. Но для time series-нагрузок — будь то телеметрия, observability, IoT, промышленные системы или системы physical AI — эта задержка становится разницей между инсайтом и инцидентом.
Diskless-дизайн сочетает эластичность cloud storage со скоростью in-memory indexing и caching. Здесь нет сложной настройки HA и тяжелой оркестрации внутри распределенной системы. Только линейная, предсказуемая производительность.
Diskless-архитектура дает несколько преимуществ из коробки:
- Высокая доступность: устойчивость в нескольких AZ без сложной репликации.
- Нулевая миграция: отсутствие перемещения данных при обновлении или переносе инстансов.
- Изоляция отказов: если один узел выходит из строя, другой продолжает обслуживать запросы без простоя.
- Упрощенное масштабирование: добавляйте или убирайте узлы по требованию под нагрузку на ingestion или запросы.
Что меняется, когда диск исчезает
Когда storage больше не является ограничением, меняется весь профиль производительности базы данных. Вместо планирования вокруг лимитов команды могут полагаться на систему, которая остается отзывчивой по мере роста объемов данных: емкость расширяется в фоне, а вычисления масштабируются вслед за спросом.
Такое разделение compute и storage также упрощает эксплуатацию. Больше не нужно управлять репликами или строить изоляцию отказов на уровне каждого узла; сам object store способен автоматически обеспечивать эту избыточность. Компании получают storage петабайтного масштаба, непрерывную доступность и модель развертывания, которая бесшовно адаптируется к разным средам — on-prem, cloud или hybrid.
Новая основа для систем реального времени
Удаление диска — это не просто оптимизация производительности, а смена парадигмы.
Системы predictive maintenance теперь могут непрерывно анализировать живую сенсорную телеметрию вместо пакетной ночной обработки. Системы industrial control могут мгновенно реагировать на аномалии вместо ожидания downstream-процессоров. Модели AI и machine learning могут обучаться на живых потоках данных, которые передают контекст, а не на статических снимках, лишенных связи с происходящим.
Когда вы убираете зависимость от локального хранилища, вы устраняете целый класс операционной инерции. База данных становится активным движком реального времени, а не просто местом для хранения данных.
Проектирование на то, что дальше
Diskless-дизайн — не конечная точка, а основа. В течение следующего десятилетия базы данных продолжат эволюционировать от управления персистентностью к обеспечению intelligence. Diskless-архитектуры — шаг в этом направлении: они делают базу данных не просто быстрее, а принципиально более способной идти в ногу с темпом физического мира.
Потому что, когда ваши системы зависят от решений в реальном времени, самым медленным звеном стека не может быть база данных.
—
New Tech Forum — площадка для технологических лидеров, включая вендоров и других внешних авторов, где они могут глубоко и подробно обсуждать emerging enterprise technology. Отбор материалов субъективен и основан на том, какие технологии редакция считает важными и наиболее интересными для читателей InfoWorld. InfoWorld не принимает рекламные материалы к публикации и оставляет за собой право редактировать все материалы от внешних авторов. Все запросы направляйте на doug_dineley@foundryco.com.
Материал — перевод статьи с английского.
Оригинал: Diskless databases: What happens when storage isn’t the bottleneck