שכפול נתוני ארגון בקנה מידה גדול: כיצד מנכ"ל PeerDB פותר את האתגרים של מעבר למחסני נתונים
גלה כיצד מנכ"ל PeerDB פותר את האתגרים של מעבר למחסני נתונים בקנה מידה גדול. למד כיצד האדריכלות עמית-לעמית של PeerDB והנדסה חדשנית מאפשרות שכפול נתונים מהיר, אמין וכדאי כלכלית מפוסטגרס למחסני נתונים כמו Snowflake ו-BigQuery.
21 בפברואר 2025

העברת נתוני ארגון בקנה מידה גדול יכולה להיות אתגר מורכב, אך מנכ"ל PeerDB, סאי סריראמפור, פיתח פתרון המאפשר להעביר נתונים במהירות, בפשטות ובעלות יעילה מפוסטגרס קיו אל מאגרי נתונים, תורים ואחסון. הגישה המיקודית של PeerDB והמחויבות לאיכות מעל לרוחב מבדילה אותה, מספקת ביצועים אמינים ותמיכה במאפיינים מקוריים המסייעים לארגונים לייעל את צרכי העברת הנתונים שלהם.
שכפול נתונים בקנה מידה גדול עם המנכ"ל של PeerDB, סאי סריראמפור
פתרון אתגרים עם כלי תנועת נתונים קיימים
תכונות עיקריות ויתרונות טכניים של PeerDB
אסטרטגיית קוד פתוח של PeerDB ותובנות שיווק
לקחים מהמייסד: בניית צוות והגדרת מיקוד מוצר
חזון PeerDB לשנת 2024 ומעבר לכך
סיכום
שכפול נתונים בקנה מידה גדול עם המנכ"ל של PeerDB, סאי סריראמפור
שכפול נתונים בקנה מידה גדול עם המנכ"ל של PeerDB, סאי סריראמפור
ב-PeerDB, המיקוד שלנו הוא על בניית הפתרון הטוב ביותר בעולם לשכפול נתונים מ-Postgres לאחסוני נתונים, תורים ואחסון. אנו מאמצים גישה של ארכיטקטורת עמית-לעמית, המאפשרת לנו לאפטם עמוקות את המחבר בין Postgres למערכת היעד.
חלק מהאתגורים הטכניים המרכזיים שפתרנו כוללים:
-
צילום מקביל: עבור טעינות נתונים ראשוניות, אנו מחלקים טבלאות Postgres גדולות על בסיס מזהים פנימיים וזורמים את הנתונים במקביל ליעד. זה מאפשר לנו להעביר טרה-בייטים של נתונים בשעות במקום בימים.
-
CDC מאופטם: עבור שכפול הדרגתי, אנו מנצלים חריצי שכפול逻辑של Postgres כדי ללכוד שינויים. לאחר מכן אנו מיישמים מגוון אופטימיזציות כמו המרה ל-AO וכיווץ zstd כדי להשיג פיגורים של פחות מדקה, הרבה מעבר לכלים הקיימים.
-
תמיכה בסוגי נתונים מקוריים: אנו מבטיחים שסוגי נתונים עשירים של Postgres כמו גיאוגרפיים מושכפלים באופן חלק ליעד בפורמט המקורי שלהם, מונעים את הצורך בהמרות יקרות.
הגישה שלנו לקוד פתוח הייתה בלתי נפרדת, מספקת נראות, אימות ואמון עם המשתמשים שלנו. בעוד שחלק ממשתמשינו בוחרים בגרסת הקוד הפתוח, רוב המשתמשים מעדיפים את השירות המנוהל שלנו, המציע תמיכה ברמת חברה ותכונות נוספות.
הבלוגינג היה חלק מרכזי באסטרטגיית השיווק שלנו. אנו מחלקים את התוכן שלנו לארבעה תחומים - עדכוני מוצר, תובנות קהילה/הנדסה ופריטים יצירתיים/מהנים. המטרה היא לבנות מודעות ומנהיגות מחשבתית לאורך זמן, במקום לצפות לתוצאות מיידיות.
כמייסד, אני לומד בקביעות - מניהול מגוון אחריויות עד לשיפור אסטרטגיית המוצר שלנו על בסיס משוב מלקוחות. המיקוד הנוכחי שלנו הוא על הצלחת מקרה השימוש של Postgres-to-warehouse, ואנו שואפים להפוך לכלי התנועה הנחוץ ביותר עבור Postgres בשנים הבאות.
פתרון אתגרים עם כלי תנועת נתונים קיימים
פתרון אתגרים עם כלי תנועת נתונים קיימים
בקנה מידה, לקוחות נתקלו במספר בעיות עם כלי תנועת נתונים קיימים בעת שכפול נתונים מ-PostgreSQL למאגרי נתונים:
-
ביצועים ואמינות: העברת נפחים גדולים של נתונים, כמו טרה-בייטים של נתונים או ניהול צי של מסדי נתונים PostgreSQL, היה איטי מאוד ולא אמין. טעינות ראשוניות וסנכרון מתמשך היו לוקחים מספר ימים והיו נשברים באמצע, דורשים התערבות ידנית.
-
תמיכה בתכונות: הכלים הקיימים לא תמכו באופן מקורי בהרבה מסוגי הנתונים העשירים והתכונות הזמינות ב-PostgreSQL, כמו סוגי נתונים גיאוגרפיים, עמודות JSON וחלוקה לחלקים. זה אילץ את הלקוחות לבצע המרות נוספות, מוסיף מורכבות ועומס.
-
עלות: מודלי התמחור של הכלים הקיימים, לעתים קרובות מבוססים על נפח הנתונים שהועברו או מספר השורות, הובילו לעלויות גבוהות ובלתי צפויות עבור לקוחות המריצים עומסי עבודה PostgreSQL בקנה מידה גדול.
אתגרים אלה הובילו את הלקוחות לפנות לפתרונות פנימיים באמצעות כלים קוד פתוח כמו Debezium, אשר, למרות שהיו פונקציונליים בקנה מידה, דרשו מאמץ הנדסי ומשאבים משמעותיים ליישום ותחזוקה.
כדי להתמודד עם בעיות אלה, צוות PDB פיתח ארכיטקטורת עמית-לעמית המתמקדת בהספקת פתרון תנועת נתונים עמיד, בעל ביצועים גבוהים ועשיר בתכונות, ספציפית עבור PostgreSQL. החידושים הטכניים המרכזיים כוללים:
- צילום מקביל: חלוקה לחלקים של טבלאות גדולות וזרימת הנתונים במקביל כדי לאפשר העברה של טרה-בייטים של נתונים בשעות במקום בימים.
- שכפול הדרגתי מאופטם: ניצול חריצי שכפול לוגי של PostgreSQL, ביצוע המרה ל-AO וכיווץ zstd כדי להשיג פיגורים של פחות מדקה.
- תמיכה בסוגי נתונים מקוריים: שמירה על סוגי נתונים עשירים, כמו נתונים גיאוגרפיים, על ידי המרתם לפורמטים המתאימים עבור מאגר הנתונים היעד.
על ידי התמודדות עם האתגרים המרכזיים שנתקלו בהם הלקוחות, PDB שואפת לספק את החוויה הטובה ביותר בעולם לשכפול נתונים מ-PostgreSQL למאגרי נתונים, תורים ואחסון.
תכונות עיקריות ויתרונות טכניים של PeerDB
תכונות עיקריות ויתרונות טכניים של PeerDB
PeerDB מתוכנן לספק פתרון עמיד ובעל ביצועים גבוהים לשכפול נתונים מ-PostgreSQL למאגרי נתונים, תורים ואחסון. חלק מהתכונות המרכזיות והיתרונות הטכניים של PeerDB כוללים:
-
צילום מקביל: PeerDB משתמש בטכניקת צילום מקבילית ייחודית כדי להעביר טרה-בייטים של נתונים מ-PostgreSQL ליעד בתוך שעות, במקום ימים, כפי שנראה בכלי ETL כלליים אחרים.
-
שכפול הדרגתי עם פיגור נמוך: PeerDB מנצל את חריצי השכפול הלוגי של PostgreSQL כדי להשיג שכפול נתונים הדרגתי עם פיגורים של פחות מדקה, מהר בהרבה מהפיגור המינימלי של 5 דקות של הכלים הקיימים.
-
תמיכה בסוגי נתונים מקוריים: PeerDB מבטיח ששמירה על סוגי נתונים עשירים ב-PostgreSQL, כמו נתונים גיאוגרפיים, נשמרת והם מושכפלים בפורמט המקורי ליעד, מונעת את הצורך בהמרות יקרות.
-
אופטימיזציות ביצועים: PeerDB מיישם מספר טכניקות לשיפור ביצועים, כולל המרת נתונים לפורמט Append-Optimized (AO) עבור Snowflake ושימוש בכיווץ zstd, אשר יכול לספק שיפור ביצועים של עד 30%.
-
מיזוגים מקבילים: בעת יישום שינויים ליעד, PeerDB מבצע מיזוגים מקבילים כדי להבטיח שכפול נתונים יעיל ובעל קצב גבוה.
-
ארכיטקטורת עמית-לעמית: בשונה ממודלי מרכז-ושולי המשמשים על ידי הרבה כלי ETL כלליים, ארכיטקטורת העמית-לעמית של PeerDB מאפשרת לה להתמקד בבניית מחבר עמיד ואיכותי בין PostgreSQL ליעדים ספציפיים, במקום לתמוך במגוון רחב של מחברים.
-
גישה קוד פתוח: PeerDB הוא פרויקט קוד פתוח, המספק שקיפות, בונה אמון עם לקוחות ומאפשר תרומות קהילה ואימות של יכולות הכלי.
על ידי התמודדות עם מגבלות הביצועים, האמינות והתכונות של כלי תנועת נתונים קיימים, PeerDB שואפת לספק חוויה עליונה ללקוחות הזקוקים לשכפול נתונים מ-PostgreSQL למאגרי הנתונים היעד שלהם, בין אם מדובר באנליטיקה בזמן אמת, גילוי הונאה או שימושים אחרים.
אסטרטגיית קוד פתוח של PeerDB ותובנות שיווק
אסטרטגיית קוד פתוח של PeerDB ותובנות שיווק
קוד פתוח היה בחירה טבעית עבור PeerDB, נוכח רקעי הצוות והעובדה שהם בונים כלי תנועת נתונים עבור PostgreSQL, שהוא לחלוטין קוד פתוח. ההטבות שהם ראו מהפצת PeerDB בקוד פתוח כוללות:
-
אימות: ל-PeerDB יש מספר עומסי עבודה בפרודקשן בקנה מידה גדול המשתמשים בגרסת הקוד הפתוח, המאמתים שיש צורך אמיתי במוצר שלהם.
-
נראות: הפעילות בקוד הפתוח, הכוכבים והמעורבות של הקהילה מסייעים להגביר את הנראות של PeerDB.
-
אמון: הצעת גרסת קוד פתוח בונה אמון עם לקוחות, מאחר שהם יכולים לבדוק את הקוד ולראות שPeerDB אינו קשור לתוכנה פרופריטרית.
היחס בין לקוחות קוד פתוח ללקוחות בתשלום משתנה בהתאם לרמת המורכבות של הכלי. עבור PeerDB, כ-2-3 מתוך 10 לקוחות משתמשים בגרסת הקוד הפתוח, בעוד שהשאר מעדיפים את השירות המנוהל או ההצעה העסקית עם תמיכה.
באשר לאסטרטגיית התוכן של PeerDB, הם מחלקים את הבלוג שלהם לארבעה תחומים עיקריים:
- מוצר: עדכונים על תכונות חדשות ושחרורים.
- קהילה: שיתוף לקחים ותובנות שהקהילה תמצא מועילות.
- הנדסה: חדירה לפרטים הטכניים של בניית PeerDB.
- הנאה: פוסטים קלילים ויצירתיים.
מטרת הבלוג היא להעלות את המודעות ל-PeerDB ולהציג את היתרונות שהוא מספק. בעוד שהשפעה מיידית עשויה שלא להיות נראית, הצוות ראה שהבלוג יכול להוביל ללקוחות שפונים אליהם לאחר 1-2 שנים של מעקב אחר התוכן.
לגבי העתיד של PeerDB, החזון של הצוות הוא להפוך אותו לכלי התנועת הנתונים הנחוץ ביותר עבור PostgreSQL, המספק את החוויה
שאלות נפוצות
שאלות נפוצות