Répliquer les données d'entreprise à grande échelle : comment le PDG de PeerDB résout les défis de la migration vers les entrepôts de données
Découvrez comment le PDG de PeerDB résout les défis de la migration vers des entrepôts de données à grande échelle. Apprenez comment l'architecture pair-à-pair et l'ingénierie innovante de PeerDB permettent une réplication de données rapide, fiable et rentable de Postgres vers des entrepôts comme Snowflake et BigQuery.
24 février 2025

Le déplacement de données d'entreprise à grande échelle peut être un défi complexe, mais le PDG de PeerDB, Sai Srirampur, a développé une solution qui permet de répliquer rapidement, simplement et de manière rentable les données de PostgreSQL vers des entrepôts de données, des files d'attente et des stockages. L'approche laser de PeerDB et son engagement envers la qualité plutôt que la diversité le distinguent, offrant des performances fiables et un support natif des fonctionnalités qui aident les entreprises à rationaliser leurs besoins en matière de déplacement de données.
Répliquer les données à grande échelle avec le PDG de PeerDB, Sai Srirampur
Résoudre les défis avec les outils de déplacement de données existants
Principales caractéristiques et avantages techniques de PeerDB
Stratégie open source et aperçu du go-to-market de PeerDB
Leçons du fondateur : construire une équipe et définir l'orientation produit
La vision de PeerDB pour 2024 et au-delà
Conclusion
Répliquer les données à grande échelle avec le PDG de PeerDB, Sai Srirampur
Répliquer les données à grande échelle avec le PDG de PeerDB, Sai Srirampur
À PeerDB, notre priorité est de construire la meilleure solution au monde pour répliquer les données de Postgres vers les entrepôts de données, les files d'attente et le stockage. Nous adoptons une approche d'architecture pair-à-pair, ce qui nous permet d'optimiser en profondeur le connecteur entre Postgres et le système cible.
Parmi les principaux défis techniques que nous avons résolus, on peut citer :
-
Instantané parallèle : Pour les chargements de données initiaux, nous partitionnons les grandes tables Postgres en fonction d'identifiants internes et diffusons les données en parallèle vers la cible. Cela nous permet de déplacer des téraoctets de données en quelques heures au lieu de jours.
-
CDC optimisé : Pour la réplication incrémentielle, nous tirons parti des emplacements de réplication logique Postgres pour capturer les changements. Nous appliquons ensuite diverses optimisations comme la conversion AO et la compression zstd pour atteindre des latences inférieures à la minute, dépassant largement les outils existants.
-
Prise en charge native des types de données : Nous veillons à ce que les types de données Postgres riches comme les données géospatiales soient répliqués de manière transparente vers la cible dans leur format natif, évitant ainsi la nécessité de transformations coûteuses.
Notre approche open source a été inestimable, offrant visibilité, validation et confiance auprès de nos utilisateurs. Bien qu'une partie de nos utilisateurs optent pour la version open source, la majorité préfère notre service géré, qui offre un support de niveau entreprise et des fonctionnalités supplémentaires.
Résoudre les défis avec les outils de déplacement de données existants
Résoudre les défis avec les outils de déplacement de données existants
À grande échelle, les clients ont rencontré plusieurs problèmes avec les outils de déplacement de données existants lors de la réplication de données de PostgreSQL vers les entrepôts de données :
-
Performances et fiabilité : Le déplacement de grands volumes de données, comme des téraoctets de données ou la gestion d'une flotte de bases de données PostgreSQL, était très lent et peu fiable. Les chargements initiaux et la synchronisation continue prenaient souvent plusieurs jours et se cassaient entre-temps, nécessitant une intervention manuelle.
-
Prise en charge des fonctionnalités : Les outils existants ne prenaient pas en charge de manière native de nombreux types de données riches et fonctionnalités disponibles dans PostgreSQL, comme les types de données géospatiales, les colonnes JSON et le partitionnement. Cela obligeait les clients à effectuer des transformations supplémentaires, ajoutant de la complexité et des surcoûts.
-
Coût : Les modèles de tarification des outils existants, souvent basés sur le volume de données transférées ou le nombre de lignes, se traduisaient par des coûts élevés et imprévisibles pour les clients exécutant des charges de travail PostgreSQL à grande échelle.
Ces défis ont conduit les clients à se tourner vers la construction de solutions internes à l'aide d'outils open source comme Debezium, qui, bien que fonctionnels à grande échelle, nécessitaient des efforts et des ressources d'ingénierie importants pour être mis en œuvre et maintenus.
Pour relever ces problèmes, l'équipe de PDB a développé une architecture pair-à-pair axée sur la fourniture d'une solution de déplacement de données robuste, haute performance et riche en fonctionnalités spécifiquement pour PostgreSQL. Les principales innovations techniques incluent :
Principales caractéristiques et avantages techniques de PeerDB
Principales caractéristiques et avantages techniques de PeerDB
PeerDB est conçu pour fournir une solution robuste et haute performance pour répliquer les données de PostgreSQL vers les entrepôts de données, les files d'attente et le stockage. Parmi les principales fonctionnalités et avantages techniques de PeerDB, on peut citer :
-
Instantané parallèle : PeerDB utilise une technique unique d'instantané parallèle pour déplacer des téraoctets de données de PostgreSQL vers la cible en quelques heures, plutôt que des jours, comme on le voit avec d'autres outils ETL généralisés.
-
Réplication incrémentielle avec faible latence : PeerDB tire parti des emplacements de réplication logique de PostgreSQL pour atteindre une réplication de données incrémentielle avec des latences inférieures à 1 minute, beaucoup plus rapide que la latence minimale de 5 minutes des outils existants.
-
Prise en charge native des types de données : PeerDB veille à ce que les types de données riches dans PostgreSQL, comme les données géospatiales, soient préservés et répliqués dans leur format natif vers la cible, évitant ainsi la nécessité de transformations coûteuses.
-
Optimisations des performances : PeerDB emploie plusieurs techniques d'optimisation des performances, notamment la conversion des données au format Append-Optimized (AO) pour Snowflake et l'utilisation de la compression zstd, qui peut fournir jusqu'à 30% d'amélioration des performances.
Stratégie open source et aperçu du go-to-market de PeerDB
Stratégie open source et aperçu du go-to-market de PeerDB
L'open source était une évidence pour PeerDB, étant donné les antécédents de l'équipe et le fait qu'ils construisent un outil de déplacement de données pour PostgreSQL, qui est entièrement open source. Les avantages qu'ils ont tirés de l'open sourcing de PeerDB incluent :
-
Validation : PeerDB a plusieurs charges de travail de production à grande échelle utilisant la version open source, ce qui valide qu'il existe un véritable besoin pour leur produit.
-
Visibilité : L'activité open source, les étoiles et l'engagement de la communauté aident à accroître la visibilité de PeerDB.
-
Confiance : Offrir une version open source crée la confiance avec les clients, car ils peuvent inspecter le code et voir que PeerDB n'est pas lié à un logiciel propriétaire.
Le ratio entre les clients open source et payants varie en fonction de la complexité de l'outil. Pour PeerDB, environ 2 à 3 clients sur 10 utilisent la version open source, tandis que le reste préfère le service géré ou l'offre d'entreprise avec support.
Leçons du fondateur : construire une équipe et définir l'orientation produit
Leçons du fondateur : construire une équipe et définir l'orientation produit
En tant que fondateur, Sai a appris plusieurs leçons précieuses sur la gestion d'une équipe et la détermination de la priorité du produit. Il souligne que le fait d'être fondateur implique de porter de nombreux chapeaux et d'acquérir des compétences diverses, du produit aux ventes, au marketing et aux relations avec les investisseurs. Cet ensemble diversifié de responsabilités est un changement important par rapport à ses rôles précédents chez Microsoft et Citus Data.
Sai s'appuie sur un réseau de mentors et de champions pour le guider à travers les défis de la création d'une startup. Il s'appuie sur l'expertise de ses investisseurs, de son cofondateur et d'autres personnes avec lesquelles il a travaillé dans le passé. Ce système de soutien l'aide à naviguer dans l'incertitude de savoir si son expérience actuelle réussira.
La vision de PeerDB pour 2024 et au-delà
La vision de PeerDB pour 2024 et au-delà
En 2024, PeerDB vise à offrir la meilleure expérience au monde pour répliquer les données de PostgreSQL vers les entrepôts de données, les files d'attente et le stockage. Les principaux domaines de concentration sont :
-
Performances : PeerDB sera de premier ordre en termes de performances, permettant aux clients de déplacer rapidement et de manière fiable des téraoctets de données.
-
Simplicité : PeerDB sera extrêmement simple à utiliser, avec un accent mis sur la fourniture d'une excellente expérience utilisateur.
-
Rentabilité : PeerDB sera rentable et offrira une tarification transparente, contrairement aux outils existants qui peuvent être coûteux et difficiles à prévoir.
Conclusion
Conclusion
Dans l'ensemble, PB permet de répliquer rapidement et simplement les données de Postgres vers les entrepôts de données, les files d'attente et le stockage. Les principaux défis techniques que PB a résolus incluent :
-
Instantané parallèle : PB partitionne les grandes tables Postgres en fonction d'identifiants internes et diffuse les données en parallèle vers la cible, permettant de déplacer des téraoctets de données en quelques heures au lieu de jours.
-
Réplication incrémentielle optimisée : PB tire parti des emplacements de réplication logique de Postgres et effectue des optimisations comme la conversion AO et la compression zstd pour atteindre une latence inférieure à la minute pour la capture des changements de données.
-
Prise en charge native des types de données : PB veille à ce que les types de données riches dans Postgres, comme les données géospatiales, soient préservés et convertis dans les formats natifs appropriés dans les systèmes cibles.
FAQ
FAQ

