Facebook открыл код распределённой системы хранения LogDevice

Facebook перевёл в разряд отрытых продуктов LogDevice, распределённую систему хранения последовательно поступающих наборов данных, таких как логи, данные мониторинга, сведения об изменении конфигурации и потоки информации о событиях. Система ориентирована на надёжное и отказоустойчивое хранение логов, обеспечивает сохранение порядка поступления записей и может масштабироваться для обработки миллионов разных логов в одном кластере хранения с интенсивностью поступления данных в несколько гигабайт в секунду. Код написан на языке С++ и опубликован под лицензией BSD.

LogDevice может адаптироваться для различных видов нагрузки. Например, может использоваться для сохранения потоков событий от особо важных подсистем, гарантируя целостность всей поступающей информации и минимальные задержки на обработку данных, или применяться для принятия больших объёмов данных для контроля тренировки систем машинного обучения. Для обеспечения отказоустойчивости все поступающие данные реплицируются на несколько узлов. Автоматически обрабатываются ситуации выхода узлов из строя и деградирования производительности узлов (данные и нагрузка перераспределяются на другие узлы). Движок локального хранения на узлах основан на RocksDB и оптимизирован как для применения жёстких дисков, так и SSD-накопителей.

В хранилище данные поступают в виде непрерывного потока записей. Запись неделима и является минимальным объектом адресации в хранилище.
Каждая запись снабжена своим уникальным идентификатором последовательности (LSN — Log Sequence Number). Осуществляющее передачу логов приложение получает информацию о присвоенном LSN после подтверждения успешной записи данных в хранилище. При чтении приложению для обработки могут возвращаться сразу несколько записей, но адресация производится только на основе LSN, т.е. хранилище может вернуть N записей начиная с указанного LSN.

Хранилище работает в режиме пополнения, который допускает только добавление новых данных. Изменение и удаление не поддерживается. Хранилище рассчитано на неограниченное время хранения записей, но предусмотрена и возможность чистки устаревших данных. Для проведения чистки устаревших записей предлагается использовать урезание лога, при котором удаляются все старые данные путём отсечения части лога. Урезание логов может производиться как по команде администратора, так и автоматически через определённые промежутки времени или при потреблении заданного объёма дискового пространства.

Для управления предлагается API и утилита командной строки ldshell, поддерживающая интерфейс LDQuery (команда query) для формирования запросов данных и оценки состояния кластера при помощи конструкций в стиле SQL.

Источник.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.