تكرار بيانات المؤسسة على نطاق واسع: كيف يحل الرئيس التنفيذي لشركة PeerDB تحديات الانتقال إلى مستودعات البيانات

اكتشف كيف يحل الرئيس التنفيذي لشركة PeerDB تحديات الانتقال إلى مستودعات البيانات على نطاق واسع. تعرف على كيف أن معمارية النظير إلى النظير والهندسة المبتكرة لشركة PeerDB تمكن من نسخ البيانات بسرعة وموثوقية وبتكلفة فعالة من Postgres إلى مستودعات البيانات مثل Snowflake و BigQuery.

١٤ فبراير ٢٠٢٥

party-gif

يمكن أن يكون نقل بيانات المؤسسة على نطاق واسع تحديًا معقدًا ، لكن Sai Srirampur ، الرئيس التنفيذي لشركة PeerDB ، قد طور حلاً يجعل من السريع والبسيط والفعال من حيث التكلفة إعادة إنتاج البيانات من PostgreSQL إلى مستودعات البيانات والطوابير والتخزين. يميز النهج المركز على الليزر والالتزام بالجودة على حساب النطاق الذي تتبناه PeerDB ، مما يوفر أداءً موثوقًا ودعمًا للميزات الأصلية التي تساعد المؤسسات على تبسيط احتياجات نقل البيانات الخاصة بها.

تكرار البيانات على نطاق واسع مع الرئيس التنفيذي لشركة PeerDB ساي سريرامبور

تركز PeerDB على بناء أفضل حل في العالم لنسخ البيانات من Postgres إلى مستودعات البيانات والطوابير والتخزين. نتبع نهج المعمارية النظيرة إلى النظير، مما يسمح لنا بتحسين الموصل بين Postgres والنظام المستهدف بعمق.

بعض التحديات الفنية الرئيسية التي حللناها تشمل:

  1. اللقطة المتوازية: بالنسبة للحمولات الأولية للبيانات، نقوم بتقسيم جداول Postgres الكبيرة بناءً على المعرفات الداخلية وبث البيانات بشكل متوازٍ إلى الهدف. يسمح لنا هذا بنقل تيرابايتات من البيانات في غضون ساعات بدلاً من أيام.

  2. CDC المحسن: بالنسبة للنسخ المتزامن التدريجي، نستفيد من فتحات إعادة التكرار المنطقية لـ Postgres لالتقاط التغييرات. ثم نطبق تحسينات مختلفة مثل تحويل AO وضغط zstd لتحقيق فواصل زمنية أقل من دقيقة، متفوقة بكثير على الأدوات الحالية.

  3. دعم أنواع البيانات الأصلية: نضمن أن أنواع بيانات Postgres الغنية مثل البيانات الجغرافية المكانية يتم نسخها بسلاسة إلى الهدف بتنسيقها الأصلي، مما يتجنب الحاجة إلى عمليات تحويل مكلفة.

حل التحديات باستخدام أدوات نقل البيانات الحالية

عند النطاق الواسع، واجه العملاء العديد من المشكلات مع أدوات نقل البيانات الحالية عند نسخ البيانات من PostgreSQL إلى مستودعات البيانات:

  1. الأداء والموثوقية: كان نقل كميات كبيرة من البيانات، مثل تيرابايتات من البيانات أو إدارة أسطول من قواعد بيانات PostgreSQL، بطيئًا وغير موثوق به للغاية. غالبًا ما تستغرق الحمولات الأولية والمزامنة المستمرة عدة أيام وتنقطع في الأثناء، مما يتطلب تدخلاً يدويًا.

  2. دعم الميزات: لم تدعم الأدوات الحالية بشكل أصلي العديد من أنواع البيانات الغنية والميزات المتوفرة في PostgreSQL، مثل أنواع البيانات الجغرافية المكانية وأعمدة JSON والتجزئة. أدى هذا إلى إجبار العملاء على إجراء تحويلات إضافية، مما أضاف تعقيدًا وحمولة.

  3. التكلفة: أدت نماذج التسعير للأدوات الحالية، والتي غالبًا ما تكون مبنية على حجم البيانات المنقولة أو عدد الصفوف، إلى تكاليف عالية وغير متوقعة للعملاء الذين يشغلون حمولات عمل PostgreSQL واسعة النطاق.

الميزات الرئيسية والمزايا التقنية لـ PeerDB

تم تصميم PeerDB لتوفير حل قوي وعالي الأداء لنسخ البيانات من PostgreSQL إلى مستودعات البيانات والطوابير والتخزين. تشمل بعض الميزات الرئيسية والمزايا الفنية لـ PeerDB ما يلي:

  1. اللقطة المتوازية: تستخدم PeerDB تقنية فريدة للقطة متوازية لنقل تيرابايتات من البيانات من PostgreSQL إلى الهدف في غضون ساعات بدلاً من أيام، كما هو الحال مع أدوات ETL العامة الأخرى.

  2. النسخ المتزامن التدريجي بانخفاض الفاصل الزمني: تستفيد PeerDB من فتحات إعادة التكرار المنطقية لـ PostgreSQL لتحقيق النسخ المتزامن التدريجي للبيانات بفواصل زمنية أقل من دقيقة، وهي أسرع بكثير من الحد الأدنى البالغ 5 دقائق لفواصل الزمن للأدوات الحالية.

  3. دعم أنواع البيانات الأصلية: تضمن PeerDB أن أنواع البيانات الغنية في PostgreSQL، مثل البيانات الجغرافية المكانية، يتم الحفاظ عليها ونسخها بتنسيقها الأصلي إلى الهدف، مما يتجنب الحاجة إلى عمليات تحويل مكلفة.

استراتيجية PeerDB المفتوحة المصدر ونظرة عامة على الذهاب إلى السوق

كان الإصدار المفتوح المصدر خيارًا بديهيًا لـ PeerDB، نظرًا لخلفيات الفريق والحقيقة أنهم يبنون أداة نقل بيانات لـ PostgreSQL، والتي هي مفتوحة المصدر بالكامل. تشمل الفوائد التي شهدوها من إصدار PeerDB المفتوح المصدر ما يلي:

  1. التحقق: لدى PeerDB عدة حمولات إنتاجية كبيرة النطاق تستخدم الإصدار المفتوح المصدر، مما يؤكد أن هناك حاجة حقيقية لمنتجهم.

  2. الرؤية: تساعد النشاطات المفتوحة المصدر والنجوم والمشاركة المجتمعية في زيادة رؤية PeerDB.

  3. الثقة: يبني عرض إصدار مفتوح المصدر الثقة مع العملاء، حيث يمكنهم فحص الرمز ورؤية أن PeerDB ليس مرتبطًا بالبرامج الحكومية.

دروس المؤسس: بناء فريق وتحديد تركيز المنتج

كمؤسس، تعلم Sai دروسًا قيمة عديدة حول إدارة فريق وتحديد التركيز على المنتج. يؤكد أن كونك مؤسسًا ينطوي على ارتداء العديد من القبعات وتعلم مهارات متنوعة، من المنتج إلى المبيعات والتسويق وعلاقات المستثمرين. هذا المجموعة المتنوعة من المسؤوليات هي تغيير كبير عن أدواره السابقة في Microsoft و Citus Data.

رؤية PeerDB لعام 2024 وما بعده

بحلول عام 2024، تهدف PeerDB إلى توفير أفضل تجربة في العالم لنسخ البيانات من PostgreSQL إلى مستودعات البيانات والطوابير والتخزين. مجالات التركيز الرئيسية هي:

  1. الأداء: ستكون PeerDB متفوقة في الأداء، مما يسمح للعملاء بنقل تيرابايتات من البيانات بسرعة وموثوقية.

  2. البساطة: ستكون PeerDB بسيطة للغاية في الاستخدام، مع التركيز على توفير تجربة مستخدم رائعة.

  3. الفعالية من حيث التكلفة: ستكون PeerDB فعالة من حيث التكلفة وتقدم تسعيرًا شفافًا، على عكس الأدوات الحالية التي قد تكون باهظة الثمن وصعبة التنبؤ بها.

التعليمات