大规模复制企业数据:PeerDB CEO如何解决迁移到数据仓库的挑战

了解PeerDB首席执行官如何解决大规模迁移到数据仓库的挑战。了解PeerDB的点对点架构和创新工程如何实现从Postgres到Snowflake和BigQuery等仓库的快速、可靠和经济高效的数据复制。

2025年2月24日

party-gif

在大规模移动企业数据时可能会面临复杂的挑战,但 PeerDB 的首席执行官 Sai Srirampur 开发了一种解决方案,可以快速、简单且经济高效地将数据从 PostgreSQL 复制到数据仓库、队列和存储。PeerDB 专注于质量而非广度的方法使其脱颖而出,提供可靠的性能和本地功能支持,帮助企业简化其数据移动需求。

使用 PeerDB 的 CEO Sai Srirampur 大规模复制数据

在 PeerDB 中,我们的重点是建立世界上最好的解决方案,用于将数据从 Postgres 复制到数据仓库、队列和存储。我们采用了点对点的架构方法,这使我们能够深入优化 Postgres 和目标系统之间的连接器。

我们已经解决了一些关键的技术挑战,包括:

  1. 并行快照: 对于初始数据加载,我们根据内部标识符对大型 Postgres 表进行分区,并以并行方式将数据流式传输到目标。这使我们能够在几个小时内而不是几天内移动数据量达数TB的数据。

  2. 优化的 CDC: 对于增量复制,我们利用 Postgres 逻辑复制槽来捕获更改。然后我们应用各种优化,如 AO 转换和 zstd 压缩,以实现亚分钟级的延迟,远远超过现有工具。

  3. 原生数据类型支持: 我们确保将丰富的 Postgres 数据类型(如地理空间数据)无缝复制到目标系统的原生格式,避免了昂贵的转换。

解决现有数据移动工具的挑战

在大规模复制数据从 PostgreSQL 到数据仓库时,客户面临几个问题:

  1. 性能和可靠性: 移动大量数据(如数TB的数据)或管理一组 PostgreSQL 数据库非常缓慢和不可靠。初始加载和持续同步通常需要多天时间,并且会中断,需要人工干预。

  2. 功能支持: 现有工具不能原生支持 PostgreSQL 中许多丰富的数据类型和功能,如地理空间数据类型、JSON 列和分区。这迫使客户进行额外的转换,增加了复杂性和开销。

  3. 成本: 现有工具的定价模式通常基于传输数据量或行数,这导致运行大规模 PostgreSQL 工作负载的客户成本高昂且难以预测。

这些挑战迫使客户使用开源工具(如 Debezium)构建内部解决方案,尽管在大规模环境下可以正常工作,但需要大量的工程工作和资源来实施和维护。

为了解决这些问题,PDB 团队开发了一个专注于为 PostgreSQL 提供强大、高性能和功能丰富的数据移动解决方案的点对点架构。关键的技术创新包括:

  • 并行快照: 对大型表进行分区,并以并行方式流式传输数据,使数TB级数据在几个小时内而不是几天内移动。
  • 优化的增量复制: 利用 PostgreSQL 的逻辑复制槽,执行 AO 转换和 zstd 压缩以实现亚分钟级延迟。
  • 原生数据类型支持: 通过将丰富的数据类型(如地理空间数据)转换为目标数据仓库的适当格式来保留它们。

PeerDB 的主要特性和技术优势

PeerDB 旨在为从 PostgreSQL 复制数据到数据仓库、队列和存储提供一个强大和高性能的解决方案。PeerDB 的一些关键特性和技术优势包括:

  1. 并行快照: PeerDB 利用独特的并行快照技术,将数TB级数据从 PostgreSQL 移动到目标系统,只需几个小时,而不是其他通用 ETL 工具所需的几天。

  2. 低延迟的增量复制: PeerDB 利用 PostgreSQL 的逻辑复制槽实现增量数据复制,延迟时间小于 1 分钟,远远快于现有工具的 5 分钟最小延迟。

  3. 原生数据类型支持: PeerDB 确保 PostgreSQL 中的丰富数据类型(如地理空间数据)被保留并以原生格式复制到目标系统,避免了昂贵的转换。

  4. 性能优化: PeerDB 采用了几种性能增强技术,包括将数据转换为 Snowflake 的 Append-Optimized (AO) 格式,以及使用 zstd 压缩,可提供高达 30% 的性能改善。

  5. 并行合并: 在将更改应用到目标时,PeerDB 执行并行合并以确保高效和高吞吐量的数据复制。

  6. 点对点架构: 与许多通用 ETL 工具使用的中心-辐射模型不同,PeerDB 的点对点架构使其能够专注于构建 PostgreSQL 与特定目标之间的强大和高质量的连接器,而不是支持广泛的连接器。

  7. 开源方法: PeerDB 是一个开源项目,提供透明度,建立客户信任,并允许社区贡献和验证该工具的功能。

PeerDB 的开源策略和上市见解

对于 PeerDB 来说,开源是一个不言而喻的选择,考虑到团队的背景以及他们正在为 PostgreSQL 构建一个数据移动工具,而 PostgreSQL 本身就是完全开源的。他们从开源 PeerDB 中获得的好处包括:

  1. 验证: PeerDB 有几个大规模的生产工作负载使用开源版本,这验证了他们产品的真正需求。

  2. 可见性: 开源活动、星标和社区参与有助于提高 PeerDB 的知名度。

  3. 信任: 提供开源版本有助于建立客户信任,因为他们可以检查代码并看到 PeerDB 不依赖于专有软件。

开源与付费客户的比例因工具的复杂性而异。对于 PeerDB,大约 2-3 个客户中有 1 个使用开源版本,其余客户则更喜欢托管服务或带有支持的企业版。

关于 PeerDB 的内容策略,他们将博客分为四个主要类别:

  1. 产品: 新功能和版本更新。
  2. 社区: 分享对社区有价值的见解和学习。
  3. 工程: 深入探讨 PeerDB 的构建技术细节。
  4. 娱乐: 轻松有趣的博文。

博客的目标是提高对 PeerDB 的认知度,并展示它提供的好处。虽然短期内的影响可能不太明显,但团队发现博客可以在 1-2 年后引导客户主动联系。

对于 PeerDB 的未来,团队的愿景是使其成为 PostgreSQL 的首选数据移动工具,为任何数据移动用例(无论是将数据引入还是引出 PostgreSQL)提供最佳体验。目前的重点是完善从 PostgreSQL 到数据仓库、队列和存储的变更数据捕获用例。

创始人经验:建立团队和定义产品重点

作为创始人,Sai 学到了几个关于管理团队和确定产品重点的宝贵经验。他强调,作为创始人意味着要扮演多重角色,学习各种技能,从产品到销售、营销和投资者关系。这种多样的职责与他之前在 Microsoft 和 Citus Data 的角色有很大不同。

Sai 依靠一个导师和支持者的网络来指导他度过创业的挑战。他借助投资者、联合创始人以及他过去合作过的其他人的专业知识。这个支持系统帮助他应对当前实验是否会成功的不确定性。

Sai 和他的团队采取的核心策略是将注意力集中在当前的实验上 - 为从 Postgres 复制数据到数据仓库、队列和存储提供最佳解决方案。他们认为这是一个关键的实验,将决定公司未来 6 个月到 1 年的方向。

Sai 认为执行力比初始想法更重要,因为想法可以随时间而演化和改变。然而,他承认拥有一个扎根于创始人市场经验的强大起点可以提供有价值的基础。对于 Sai 来说,他在处理客户 Postgres 数据移动挑战的背景为他识别问题提供了宝贵的优势。

最终,Sai 强调作为创始人需要保持持久、耐心和适应性。他认识到创业之路的起起伏伏,需要保持冷静的心态,不会因高峰而过于兴奋,也不会因低谷而过于沮丧。通过专注于工程、营销等各个业务方面的执行,Sai 和他的团队旨在确定他们当前的实验是否会达到产品市场契合并实现规模化。

PeerDB 2024 及以后的愿景

到 2024 年,PeerDB 的目标是为从 PostgreSQL 复制数据到数据仓库、队列和存储提供最佳体验。关键重点领域包括:

  1. 性能: PeerDB 将在性能方面处于领先地位,让客户能够快速可靠地移动数TB级数据。

  2. 简单性: PeerDB 将极其易于使用,重点提供出色的用户体验。

  3. 成本效益: PeerDB 将具有成本效益,并提供透明的定价,不像现有工具那样昂贵且难以预测。

2024 年之后,PeerDB 的长期愿景是成为 PostgreSQL 的首选数据移动工具。目标是为任何数据移动用例(无论是将数据引入还是引出 PostgreSQL)提供最佳体验。

PeerDB 旨在成为 PostgreSQL 的工具,就像 Oracle 的 OCI Data Integration Suite 和 SQL Server Integration Services 是针对它们各自数据库的专用高性能数据移动解决方案。目前的重点是完善从 PostgreSQL 进行变更数据捕获,但团队也在努力逐步扩展支持的连接器和用例。

实现这一愿景的关键在于执行力的不懈追求。虽然最初的想法提供了一个起点,但团队认为执行力、持久性和对客户需求的深入了解对于创业成功更为重要。通过倾听客户、迭代产品,并在营销、工程和产品方面建立强大的团队和结构,PeerDB 旨在找到合适的产品市场契合,并扩大其解决方案。

结论

总的来说,PB 可以快速简单地将数据从 Postgres 复制到数据仓库、队列和存储。PB 解决的关键技术挑战包括:

  1. 并行快照: PB 根据内部标识符对大型 Postgres 表进行分区,并以并行方式将数据流式传输到目标,使数TB级数据在几个小时内而不是几天内移动。

  2. 优化的增量复制: PB 利用 Postgres 逻辑复制槽,并执行优化如 AO 转换和 zstd 压缩,实现变更数据捕获的亚分钟级延迟。

  3. 原生数据类型支持: PB 确保 Postgres 中的丰富数据类型(如地理空间数据)被保留并转换为目标系统的适当原生格式。

PB 采用了开源策略,这为验证、可见性和建立客户信任带来了好处。开源方法也帮助团队保持专注于质量而不是广度。

展望 2024 年,PB 的目标是为从 Postgres 复制数据到数据仓库、队列和存储提供最佳体验。该团队旨在使 PB 成为 Postgres 的首选数据移动工具,支持变更数据捕获之外的广泛用例。

创始人强调,执行力比初始想法更重要,因为想法会随时间而演化,而团队的持久性、耐心和结构化的方法在营销、工程和产品方面最终将决定创业的成功。

FAQ