Масштабное репликирование корпоративных данных: как генеральный директор PeerDB решает проблемы миграции в хранилища данных

Узнайте, как генеральный директор PeerDB решает проблемы масштабирования при переходе на хранилища данных. Узнайте, как одноранговая архитектура и инновационная инженерия PeerDB обеспечивают быструю, надежную и экономичную репликацию данных из Postgres в хранилища, такие как Snowflake и BigQuery.

14 февраля 2025 г.

party-gif

Перемещение корпоративных данных в масштабе может быть сложной задачей, но генеральный директор PeerDB Сай Сриррампур разработал решение, которое делает быстрым, простым и экономически эффективным репликацию данных из PostgreSQL в хранилища данных, очереди и хранилища. Целенаправленный подход PeerDB и приверженность качеству, а не широте, выделяют его, обеспечивая надежную производительность и собственную поддержку функций, что помогает предприятиям упростить свои потребности в перемещении данных.

Масштабное репликация данных с генеральным директором PeerDB Саи Сриромпуром

В PeerDB наш фокус направлен на создание лучшего в мире решения для репликации данных из Postgres в хранилища данных, очереди и хранилища. Мы используем архитектуру равноправных узлов, что позволяет нам глубоко оптимизировать соединитель между Postgres и целевой системой.

Некоторые ключевые технические проблемы, которые мы решили, включают:

  1. Параллельный снапшот: Для начальной загрузки данных мы разбиваем большие таблицы Postgres на основе внутренних идентификаторов и потоковую передачу данных в параллельном режиме в целевую систему. Это позволяет нам перемещать терабайты данных за часы вместо дней.

  2. Оптимизированный CDC: Для инкрементной репликации мы используем слоты логической репликации Postgres для захвата изменений. Затем мы применяем различные оптимизации, такие как преобразование в формат AO и сжатие zstd, чтобы достичь задержки менее минуты, значительно превышающей существующие инструменты.

  3. Поддержка собственных типов данных: Мы обеспечиваем, чтобы богатые типы данных Postgres, такие как геопространственные, были бесшовно реплицированы в целевую систему в их собственном формате, избегая необходимости дорогостоящих преобразований.

Решение проблем с существующими инструментами перемещения данных

При масштабировании клиенты столкнулись с несколькими проблемами с существующими инструментами перемещения данных при репликации данных из PostgreSQL в хранилища данных:

  1. Производительность и надежность: Перемещение больших объемов данных, таких как терабайты данных или управление парком баз данных PostgreSQL, было очень медленным и ненадежным. Начальные загрузки и постоянная синхронизация часто занимали несколько дней и прерывались, требуя ручного вмешательства.

  2. Поддержка функций: Существующие инструменты не поддерживали многие богатые типы данных и функции, доступные в PostgreSQL, такие как геопространственные типы данных, столбцы JSON и разбиение. Это вынуждало клиентов выполнять дополнительные преобразования, добавляя сложность и накладные расходы.

  3. Стоимость: Модели ценообразования существующих инструментов, часто основанные на объеме передаваемых данных или количестве строк, приводили к высоким и непредсказуемым затратам для клиентов, работающих с крупномасштабными рабочими нагрузками PostgreSQL.

Ключевые особенности и технические преимущества PeerDB

PeerDB разработан, чтобы предоставить надежное и высокопроизводительное решение для репликации данных из PostgreSQL в хранилища данных, очереди и хранилища. Некоторые ключевые функции и технические преимущества PeerDB включают:

  1. Параллельный снапшот: PeerDB использует уникальную технику параллельного снапшота, чтобы перемещать терабайты данных из PostgreSQL в целевую систему за считанные часы, а не дни, как это наблюдается с другими универсальными инструментами ETL.

  2. Инкрементная репликация с низкой задержкой: PeerDB использует слоты логической репликации PostgreSQL, чтобы достичь инкрементной репликации данных с задержкой менее 1 минуты, что значительно быстрее минимальной задержки 5 минут существующих инструментов.

  3. Поддержка собственных типов данных: PeerDB обеспечивает, чтобы богатые типы данных в PostgreSQL, такие как геопространственные данные, сохранялись и реплицировались в их собственном формате в целевую систему, избегая необходимости дорогостоящих преобразований.

Стратегия с открытым исходным кодом и инсайты по выходу на рынок PeerDB

Открытый исходный код был очевидным выбором для PeerDB, учитывая опыт команды и тот факт, что они создают инструмент для перемещения данных для PostgreSQL, который полностью является открытым исходным кодом. Преимущества, которые они получили от открытия исходного кода PeerDB, включают:

  1. Валидация: PeerDB имеет несколько крупномасштабных производственных рабочих нагрузок, использующих версию с открытым исходным кодом, что подтверждает наличие реальной потребности в их продукте.

  2. Видимость: Активность в открытом исходном коде, звезды и вовлеченность сообщества помогают повысить видимость PeerDB.

  3. Доверие: Предложение версии с открытым исходным кодом способствует доверию клиентов, поскольку они могут изучить код и убедиться, что PeerDB не привязан к проприетарному программному обеспечению.

Уроки основателя: построение команды и определение фокуса продукта

Как основатель, Сай усвоил несколько ценных уроков об управлении командой и определении фокуса продукта. Он подчеркивает, что быть основателем означает носить множество шляп и осваивать разнообразные навыки, от продукта до продаж, маркетинга и отношений с инвесторами. Этот разнообразный набор обязанностей является значительным изменением по сравнению с его предыдущими ролями в Microsoft и Citus Data.

Сай полагается на сеть наставников и чемпионов, чтобы направлять его через трудности основания стартапа. Он опирается на экспертизу своих инвесторов, соучредителя и других, с кем он работал в прошлом. Эта система поддержки помогает ему справляться с неопределенностью того, будет ли его текущий эксперимент успешным.

Видение PeerDB на 2024 год и далее

В 2024 году PeerDB стремится предоставить лучший в мире опыт репликации данных из PostgreSQL в хранилища данных, очереди и хранилища. Ключевые области фокуса:

  1. Производительность: PeerDB будет лучшим в плане производительности, позволяя клиентам быстро и надежно перемещать терабайты данных.

  2. Простота: PeerDB будет чрезвычайно простым в использовании, с акцентом на предоставление отличного пользовательского опыта.

  3. Экономическая эффективность: PeerDB будет экономически эффективным и предлагать прозрачное ценообразование, в отличие от существующих инструментов, которые могут быть дорогими и трудными для прогнозирования.

Часто задаваемые вопросы