Mở khóa sức mạnh của Nguồn mở: Cách IBM Watson X tận dụng đổi mới

Khám phá cách IBM Watson X tận dụng sự đổi mới nguồn mở để cung cấp năng lượng cho trí tuệ nhân tạo và dữ liệu doanh nghiệp. Khám phá các công cụ và công nghệ nguồn mở, bao gồm Codeflare, PyTorch, KServe và Presto, thúc đẩy việc đào tạo mô hình, điều chỉnh và phân tích dữ liệu quy mô lớn trên OpenShift.

20 tháng 2, 2025

party-gif

Khám phá cách nền tảng Watson X của IBM tận dụng sức mạnh của mã nguồn mở để cung cấp các giải pháp AI và dữ liệu tiên tiến. Khám phá các công nghệ mã nguồn mở cho phép đào tạo, điều chỉnh và suy luận mô hình hiệu quả, cũng như thu thập và phân tích dữ liệu một cách trơn tru. Bài đăng blog này cung cấp tổng quan toàn diện về cách mã nguồn mở thúc đẩy đổi mới trong Watson X, giúp doanh nghiệp khai thác tối đa AI và dữ liệu.

Lợi ích của Mã nguồn mở trong Watson X

IBM có lịch sử lâu dài trong việc đóng góp và tận dụng mã nguồn mở trong các sản phẩm của mình. Truyền thống này tiếp tục với Watson X, nền tảng Doanh nghiệp mới của IBM dành cho AI và dữ liệu. Bằng cách ôm ấp mã nguồn mở, Watson X hưởng lợi từ những AI, đổi mới và mô hình tốt nhất có sẵn.

Việc sử dụng mã nguồn mở trong Watson X bao trùm ba khía cạnh chính: huấn luyện và xác thực mô hình, điều chỉnh và suy luận mô hình, và thu thập và phân tích dữ liệu.

Đối với huấn luyện và xác thực mô hình, Watson X tận dụng dự án mã nguồn mở Codeflare. Codeflare cung cấp các trừu tượng thân thiện với người dùng để mở rộng quy mô, xếp hàng và triển khai các tải trọng học máy, tích hợp với Ray, Kubernetes và PyTorch.

PyTorch, khuôn khổ học máy mã nguồn mở, được sử dụng để biểu diễn các mô hình trong Watson X. PyTorch cung cấp các tính năng chính như hỗ trợ tensor, tăng tốc GPU và huấn luyện phân tán, cho phép xử lý hiệu quả các mô hình lớn và phức tạp.

Đối với điều chỉnh và suy luận mô hình, Watson X sử dụng các dự án mã nguồn mở KServe và Model Mesh. Những công nghệ này cho phép phục vụ hiệu quả hàng nghìn mô hình AI trên nền tảng OpenShift. Ngoài ra, dự án mã nguồn mở KKIT cung cấp các API để điều chỉnh lời nhắc, tăng cường thêm các khả năng suy luận.

Cuối cùng, đối với thu thập và phân tích dữ liệu, Watson X tận dụng công cụ truy vấn SQL mã nguồn mở Presto. Hiệu suất cao, khả năng mở rộng và khả năng truy vấn dữ liệu ở nơi nó tồn tại của Presto khiến nó trở thành một thành phần có giá trị trong hệ sinh thái dữ liệu của Watson X.

Bằng cách ôm ấp các công nghệ mã nguồn mở, Watson X hưởng lợi từ những AI, đổi mới và mô hình tốt nhất có sẵn, trao quyền cho người dùng xây dựng và triển khai các ứng dụng thông minh với quy mô lớn.

Đào tạo và Xác nhận Mô hình với Codeflare

Việc huấn luyện và xác thực mô hình có thể tiêu tốn nhiều tài nguyên cụm, đặc biệt khi các mô hình là các mô hình nền tảng khổng lồ với hàng tỷ tham số. Để sử dụng hiệu quả một cụm và làm cho nó dễ dàng hơn cho các nhà khoa học dữ liệu, IBM có một dự án mã nguồn mở gọi là Codeflare.

Codeflare cung cấp các trừu tượng thân thiện với người dùng để mở rộng quy mô, xếp hàng và triển khai các tải trọng học máy. Nó tích hợp Ray, Kuberay và PyTorch để cung cấp các tính năng này. Với Ray, nó cung cấp một trừu tượng công việc, và Kuberay cho phép Ray chạy trên các nền tảng Kubernetes như OpenShift.

Trong một trường hợp sử dụng Codeflare điển hình, nó trước tiên khởi động một cụm Ray. Sau đó, nhà khoa học dữ liệu có thể gửi các công việc huấn luyện đến cụm. Nếu cụm OpenShift đang được sử dụng nhiều và không có tài nguyên sẵn có, Codeflare có thể xếp hàng các công việc và chờ đến khi có tài nguyên. Trong một số trường hợp, nó thậm chí có thể mở rộng cụm để đáp ứng tải trọng. Khi huấn luyện và xác thực hoàn tất, Codeflare có thể xóa các công việc Ray và loại bỏ chúng khỏi cụm.

Lợi ích chính của Codeflare là nó cho phép các nhà khoa học dữ liệu sử dụng hiệu quả một cụm, hoặc thậm chí nhiều cụm OpenShift, mà không phải lo lắng về cơ sở hạ tầng bên dưới.

Biểu diễn Mô hình với PyTorch

PyTorch cung cấp các tính năng chính để biểu diễn các mô hình, bao gồm hỗ trợ tensor, hỗ trợ GPU và huấn luyện phân tán.

Tensor là các mảng đa chiều lưu trữ các giá trị hoặc xác suất được điều chỉnh theo thời gian để cải thiện khả năng dự đoán của mô hình. Hỗ trợ tensor của PyTorch cho phép biểu diễn hiệu quả các tham số mô hình phức tạp này.

Hỗ trợ GPU của PyTorch cho phép tính toán rất hiệu quả trong quá trình huấn luyện mô hình, điều này rất quan trọng đối với các mô hình lớn và phức tạp. Ngoài ra, khả năng huấn luyện phân tán của PyTorch cho phép huấn luyện các mô hình quá lớn để vừa với một máy duy nhất, bằng cách phân phối quá trình huấn luyện trên nhiều máy.

Các tính năng chính khác của PyTorch để biểu diễn mô hình bao gồm:

  • Tạo mạng nơ-ron: PyTorch giúp dễ dàng tạo các loại mạng nơ-ron khác nhau.
  • Nạp dữ liệu: PyTorch cung cấp các khả năng nạp dữ liệu dễ sử dụng.
  • Vòng lặp huấn luyện: PyTorch bao gồm các vòng lặp huấn luyện được xây dựng sẵn để hiệu quả cập nhật các tham số mô hình để cải thiện độ chính xác dự đoán.
  • Điều chỉnh mô hình: Tính năng tính toán gradient tự động của PyTorch đơn giản hóa quá trình thực hiện các điều chỉnh nhỏ đối với mô hình để cải thiện hiệu suất của nó.

Bằng cách tận dụng các khả năng mã nguồn mở được cung cấp bởi PyTorch, Watson X có thể biểu diễn và huấn luyện hiệu quả các mô hình AI phức tạp như một phần của nền tảng AI và dữ liệu cấp doanh nghiệp của mình.

Điều chỉnh Mô hình và Suy luận với Công nghệ Mã nguồn mở

Chúng tôi muốn có thể phục vụ một số lượng lớn mô hình AI và làm điều đó với quy mô lớn trên OpenShift. Các dự án mã nguồn mở mà chúng tôi tận dụng cho điều này là KServ Model Mesh và KKit.

KServ Model Mesh cho phép chúng tôi phục vụ hiệu quả hàng nghìn mô hình trong một pod duy nhất. Ban đầu, KServ chỉ có thể phục vụ một mô hình mỗi pod, điều này không rất hiệu quả. Bằng cách kết hợp KServ với dự án Model Mesh, bây giờ chúng tôi có thể phục vụ số lượng lớn mô hình một cách hiệu quả trên cụm OpenShift.

Để tìm thấy những mô hình này, chúng tôi tận dụng kho lưu trữ Hugging Face, có hơn 200.000 mô hình mã nguồn mở. IBM có một mối quan hệ đối tác với Hugging Face, khiến nó trở thành một nguồn tuyệt vời cho các mô hình sử dụng trong các sản phẩm Watson X của chúng tôi.

Ngoài ra, chúng tôi sử dụng KKit, một dự án mã nguồn mở cung cấp các API để điều chỉnh lời nhắc. Điều này cho phép chúng tôi tinh chỉnh các mô hình ở phía suy luận để cải thiện kết quả.

Kết hợp lại, những công nghệ mã nguồn mở này cho phép chúng tôi phục vụ và điều chỉnh một số lượng lớn mô hình AI với quy mô lớn trên OpenShift, cung cấp các khả năng suy luận mô hình cho Watson X.

Thu thập Dữ liệu và Phân tích với Presto

Presto là dự án mã nguồn mở mà IBM tận dụng cho việc thu thập và phân tích dữ liệu trong Watson X. Presto là một công cụ truy vấn SQL có hiệu suất cao, cho phép phân tích dữ liệu mở và cung cấp nền tảng hồ sơ dữ liệu mở.

Các tính năng chính của Presto bao gồm:

  • Hiệu suất cao: Presto có khả năng mở rộng lớn và cung cấp thực thi truy vấn nhanh, phù hợp với phân tích dữ liệu quy mô lớn.

  • Truy vấn liên kết: Presto cho phép bạn truy vấn dữ liệu từ nhiều nguồn dữ liệu, cung cấp một chế độ xem thống nhất về dữ liệu của bạn.

  • Truy vấn dữ liệu ở nơi nó tồn tại: Presto có thể truy vấn dữ liệu trực tiếp tại vị trí nguồn của nó, loại bỏ nhu cầu di chuyển dữ liệu đến một kho lưu trữ tập trung.

Bằng cách sử dụng Presto, Watson X có thể hiệu quả thu thập và phân tích dữ liệu từ các nguồn khác nhau, cho phép các cái nhìn sâu sắc dựa trên dữ liệu và cung cấp năng lực AI và học máy của nền tảng.

Kết luận

IBM có một lịch sử phong phú trong việc đóng góp vào mã nguồn mở và tận dụng mã nguồn mở trong các sản phẩm của mình, và Watson X tiếp tục truyền thống đó. Watson X là nền tảng Doanh nghiệp mới của IBM dành cho AI và dữ liệu, và nó tận dụng mã nguồn mở để cung cấp những AI, đổi mới và mô hình tốt nhất.

Các dự án mã nguồn mở được sử dụng trong Watson X bao trùm các khía cạnh khác nhau của đường ống AI và dữ liệu, bao gồm huấn luyện và xác thực mô hình, biểu diễn mô hình, điều chỉnh và suy luận mô hình, và thu thập và phân tích dữ liệu.

Đối với huấn luyện và xác thực mô hình, Watson X sử dụng dự án mã nguồn mở Codeflare, cung cấp các trừu tượng thân thiện với người dùng để mở rộng quy mô, xếp hàng và triển khai các tải trọng học máy. Nó tích hợp với Ray, Kubeflow và PyTorch để cho phép sử dụng hiệu quả tài nguyên cụm.

PyTorch là dự án mã nguồn mở được sử dụng để biểu diễn các mô hình trong Watson X, cung cấp các tính năng chính như hỗ trợ tensor, hỗ trợ GPU và khả năng huấn luyện phân tán.

Đối với điều chỉnh và suy luận mô hình, Watson X tận dụng các dự án mã nguồn mở KServ Model Mesh và Hugging Face, cho phép phục vụ hiệu quả hàng nghìn mô hình AI trên cụm OpenShift. Ngoài ra, dự án mã nguồn mở KKit cung cấp các API để điều chỉnh lời nhắc nhằm cải thiện kết quả.

Cuối cùng, đối với thu thập và phân tích dữ liệu, Watson X sử dụng dự án mã nguồn mở Presto, một công cụ truy vấn SQL có hiệu suất cao cho phân tích dữ liệu mở và nền tảng hồ sơ dữ liệu mở.

Bằng cách ôm ấp mã nguồn mở, Watson X tiếp tục truyền thống của IBM trong việc thúc đẩy đổi mới và cung cấp những giải pháp AI và dữ liệu tốt nhất cho khách

Câu hỏi thường gặp