Apple Tham gia Hội đồng Quản trị OpenAI, Hack OpenAI, Jailbreaks và Tin tức AI Khác

Khám phá tin tức và các phát triển mới nhất về trí tuệ nhân tạo, bao gồm việc Apple có chỗ ngồi trên hội đồng quản trị của OpenAI, những tiến bộ trong trí tuệ nhân tạo trên thiết bị, một công cụ mới để cách ly giọng nói, và những lo ngại về bảo mật xung quanh việc hack nội bộ của OpenAI. Khám phá bức tranh đang thay đổi của công nghệ tính toán trí tuệ nhân tạo và tác động của nó đối với tương lai của truyền thông và công nghệ.

24 tháng 2, 2025

party-gif

Bài đăng blog này cung cấp một tổng quan toàn diện về những phát triển mới nhất trong ngành công nghiệp AI, bao gồm một loạt các chủ đề từ sự tham gia của Apple với OpenAI đến việc ra mắt các mô hình và công cụ AI mới. Độc giả sẽ có được những hiểu biết về bức tranh đang thay đổi của công nghệ AI, bao gồm các tiến bộ trong xử lý AI trên thiết bị, khả năng giọng nói và tạo tài sản 3D. Ngoài ra, bài đăng cũng đề cập đến những mối quan ngại và vi phạm an ninh quan trọng trong cộng đồng AI, cung cấp một góc nhìn toàn diện về tình trạng hiện tại của lĩnh vực này.

Apple Tham Gia Hội Đồng Quản Trị OpenAI: Một Động Thái Bất Ngờ

Đã có báo cáo rằng Apple đang nhận được một ghế quan sát viên trong hội đồng quản trị của OpenAI. Đây là một động thái đáng ngạc nhiên, vì Microsoft phải mua một nửa của OpenAI để có được một ghế trong hội đồng, trong khi Apple không phải trả bất cứ khoản phí nào cho OpenAI nhưng vẫn nhận được một ghế trong hội đồng. Ghế này đã được chọn cho Phil Schiller, cựu giám đốc tiếp thị của Apple.

Tin này thú vị bởi vì sau các thông báo về AI của Apple, rõ ràng họ đang giữ khoảng cách với OpenAI về mặt hợp tác. Mọi người đều nghĩ rằng ChatGPT sẽ được tích hợp sâu vào hệ sinh thái của Apple, nhưng hóa ra Apple đã phát triển rất nhiều trí tuệ nhân tạo của riêng họ để chạy trên các thiết bị và trong đám mây riêng của họ. Bất kỳ nhiệm vụ nào yêu cầu kiến thức về thế giới đều được chuyển và gửi đến API của OpenAI, nhưng chỉ sau khi xác nhận ý định của người dùng mỗi lần.

Salesforce Giới Thiệu Einstein Tiny Giant: Sự Trỗi Dậy của AI Trên Thiết Bị

Mark Benioff, CEO của Salesforce, đã công bố ra mắt Salesforce Einstein Tiny Giant, một mô hình với 1 tỷ tham số, vượt trội hơn các mô hình có kích thước lớn hơn 7 lần, bao gồm cả GPT-3.5 và Claude, về hiệu suất trên thiết bị. Sự phát triển này là một bước tiến đáng kể hướng tới tương lai của xử lý AI, nơi các mô hình nhỏ hơn và hiệu quả hơn sẽ đóng vai trò quan trọng.

Điểm nổi bật của Salesforce Einstein Tiny Giant là:

  • Đây là một mô hình với 1 tỷ tham số, khiến nó trở thành một mô hình "vi mô" trong thế giới các mô hình ngôn ngữ lớn.
  • Mặc dù kích thước nhỏ hơn, nó vượt trội hơn các mô hình lớn hơn như GPT-3.5 và Claude về hiệu suất trên thiết bị.
  • Mô hình này đại diện cho sự gia tăng của xử lý AI trên thiết bị, nơi các tính toán được thực hiện cục bộ trên thiết bị của người dùng, thay vì dựa vào cơ sở hạ tầng dựa trên đám mây.
  • Xử lý AI trên thiết bị mang lại nhiều lợi ích, bao gồm cải thiện quyền riêng tư, bảo mật, độ trễ thấp và hiệu quả về chi phí.
  • Tầm nhìn của Benioff về tương lai của ngăn xếp AI bao gồm sự kết hợp của các mô hình nhỏ, chuyên biệt về nhiệm vụ, được điều phối bởi một mô hình tổng quát, cung cấp hiệu quả và hiệu suất tối đa.
  • Sự sẵn có của các mô hình vi mô nguồn mở như Salesforce Einstein Tiny Giant là một bước tiến đáng kể để hiện thực hóa tầm nhìn này về ngăn xếp AI trong tương lai.

Moshi bởi Open Science: Vượt Qua OpenAI về Khả Năng Giọng Nói

Một công ty có tên là Open Science dường như đã vượt qua OpenAI trong việc cung cấp đầy đủ các khả năng về giọng nói. Họ đã phát hành Moshi, một mô hình đa phương tiện cơ bản có thể nghe và nói theo thời gian thực, tương tự như những gì OpenAI đã trình diễn với GPT-4 vào tháng 5. Tuy nhiên, chức năng giọng nói của GPT-4 bị trì hoãn và chưa rõ khi nào sẽ được phát hành.

Moshi có nhiều tính năng ấn tượng:

  • Biểu đạt và hiểu cảm xúc
  • Nói với giọng điệu giống tiếng Pháp
  • Nghe và tạo ra giọng nói
  • Suy nghĩ trong khi nói
  • Hỗ trợ hai luồng âm thanh để nghe và nói cùng một lúc
  • Tiền huấn luyện chung trên dữ liệu tổng hợp, tinh chỉnh trên 100.000 cuộc hội thoại kiểu miệng được chuyển đổi bằng TTS
  • Học giọng nói từ dữ liệu tổng hợp được tạo ra bởi một mô hình TTS riêng biệt
  • Độ trễ cuối cùng là 200 mili giây
  • Phiên bản nhỏ hơn chạy trên MacBook hoặc GPU cỡ tiêu dùng
  • Sử dụng watermarking để phát hiện âm thanh được tạo bởi AI
  • Sẽ được mở mã nguồn hoàn toàn trong thời gian tới, bao gồm cả demo, mã, mô hình và bài báo

Tương Lai của Tính Toán: Sự Thay Đổi Trong Mô Hình

Theo Andrew Karpathy, một giọng nói hàng đầu trong lĩnh vực trí tuệ nhân tạo và là đồng sáng lập của OpenAI, bản chất của tính toán đang trải qua một thay đổi cơ bản. Chúng ta đang bước vào một range tính toán mới, tương tự như những năm 1980 của ngành công nghệ.

Thay vì một bộ xử lý trung tâm làm việc trên các hướng dẫn trên byte, bây giờ chúng ta có các mô hình ngôn ngữ lớn đóng vai trò như bộ xử lý trung tâm, làm việc trên các token (các mảnh chuỗi nhỏ) thay vì byte. Ngoài ra, chúng ta có một cửa sổ ngữ cảnh của các token thay vì một RAM của byte, và các thành phần tương đương của các thành phần máy tính khác.

Karpathy gọi "máy tính" mới này là mô hình ngôn ngữ lớn (LLM), và ông thấy đây là một hệ thống mới mà tất cả chúng ta đang học cách lập trình. Hiểu được điểm mạnh, điểm yếu và cách kết hợp hiệu quả nó vào các sản phẩm là rất quan trọng trong những năm tới.

Sự thay đổi này trong range tính toán gợi ý rằng các hệ điều hành và ứng dụng truyền thống có thể không còn cần thiết nữa. Tương lai có thể bao gồm việc giao tiếp trực tiếp với một mô hình ngôn ngữ lớn, sau đó nó có thể thực hiện các tính toán mong muốn trên bất kỳ thiết bị cuối nào, mà không cần phát triển phần mềm truyền thống.

Công Cụ Âm Thanh Sáng Tạo của 11 Labs: Cách Ly Giọng Nói và Các Giọng Nói Nổi Tiếng

11 Labs, công ty về giọng nói AI, đã phát hành hai sản phẩm mới và hấp dẫn:

  1. Voice Isolator: Công cụ này có thể ghi âm giọng nói và trích xuất giọng nói rõ ràng từ bất kỳ mẫu âm thanh nào, ngay cả với tiếng ồn nền đáng kể. Demo trình diễn khả năng loại bỏ tiếng ồn nền và cung cấp âm thanh chất lượng cao, rất hữu ích cho việc ghi âm phỏng vấn hoặc cuộc gọi video trong môi trường ồn ào.

  2. Famous Voices: 11 Labs đang mang các giọng nói nổi tiếng đến ứng dụng iOS của họ, cho phép người dùng có các biểu tượng Hollywood lịch sử như James Dean, Judy Garland, Bert Reynolds và Sir Lawrence Olivier nói bất cứ điều gì họ muốn. Tính năng này thể hiện tương lai của phương tiện truyền thông, nơi chủ sở hữu quyền sở hữu trí tuệ có thể bán quyền sử dụng giọng nói và hình ảnh của một người cho các công ty AI.

Perplexity Pro Search: Thúc Đẩy Khả Năng Lập Luận Đa Bước và Lập Trình

Perplexity đã công bố một phiên bản cập nhật của Pro Search có thể thực hiện nghiên cứu sâu hơn về các truy vấn phức tạp hơn với lập luận nhiều bước, cũng như khả năng toán học và lập trình nâng cao.

Các tính năng chính của Perplexity Pro Search cập nhật bao gồm:

  1. Lập luận Nhiều Bước: Hệ thống này hiện tiếp cận các vấn đề phức tạp với nhiều lập luận nhiều bước hơn. Nó hiểu khi một câu hỏi yêu cầu lập kế hoạch, làm việc thông qua các mục tiêu từng bước và tổng hợp các câu trả lời sâu sắc hơn với hiệu quả hơn.

  2. Wolfram Alpha và Thực Thi Mã: Perplexity Pro Search đã bổ sung khả năng toán học và lập trình nâng cao, cho phép nó giải quyết các vấn đề phức tạp yêu cầu thực thi mã, chẳng hạn như vấn đề "đồng hồ đêm" trong 100 bước.

  3. Xử Lý Truy Vấn Cải Thiện: Hệ thống cập nhật có thể xử lý các truy vấn phức tạp hơn, chia chúng thành nhiều bước để cung cấp câu trả lời toàn diện và có lý do.

Meta 3D Gen: Biến Đổi Việc Tạo Tài Sản 3D

Meta, tập đoàn công nghệ, đã giới thiệu một hệ thống đột phá mới được gọi là Meta 3D Gen. Công cụ AI sáng tạo này được thiết kế để cách mạng hóa cách tạo tài sản 3D, cung cấp một giải pháp từ đầu đến cuối liền mạch và hiệu quả.

Meta 3D Gen là một hệ thống AI kết hợp có thể tạo ra tài sản 3D chất lượng cao, bao gồm cả các bản đồ kết cấu và chất liệu chi tiết, tất cả từ các lời nhắc văn bản đơn giản. Khả năng đáng kinh ngạc này cho phép các nhà sáng tạo tạo ra nội dung 3D ấn tượng trong một phần thời gian so với các phương pháp truyền thống.

Hiệu suất của hệ thống thực sự ấn tượng, với khả năng tạo ra kết quả vượt trội hơn các giải pháp hiện có, trong khi hoạt động nhanh hơn từ 3 đến 10 lần. Sự cải thiện đáng kể về hiệu quả và chất lượng này là một bước đột phá cho ngành tạo tài sản 3D.

Bằng cách tận dụng sức mạnh của AI, Meta 3D Gen赋予các nhà sáng tạo tập trung vào tầm nhìn sáng tạo của họ, thay vì bị vướng vào các phức tạp kỹ thuật của việc mô hình hóa và kết cấu 3D. Sự thay đổi này trong quy trình sáng tạo có tiềm năng mở ra những khả năng mới và truyền cảm hứng cho một kỷ nguyên sáng tạo nội dung 3D mới.

Meta đã tăng cường dự án này bằng cách công bố hai bài báo nghiên cứu liên quan đến Meta 3D Gen, cung cấp những hiểu biết và chi tiết kỹ thuật có giá trị để cộng đồng rộng lớn hơn khám phá và xây dựng dựa trên.

GPT-4All 3.0: Ứng Dụng Máy Học Cục Bộ Nguồn Mở Trên Máy Tính

Dự án ban đầu cho phép bạn chạy các mô hình cục bộ được gọi là GPT-4All, và bây giờ họ đã phát hành GPT-4All 3.0. Năm ngoái, mô hình LLaMA gốc từ Meta AI đã bị rò rỉ, và những người tuyệt vời tại Nomic AI, những người sáng tạo ra GPT-4All, đã có thể xây dựng một ứng dụng nơi bạn thực sự có thể chạy LLaMA cục bộ.

GPT-4All 3.0 là phiên bản mới nhất của ứng dụng máy tính để bàn LLM nguồn mở này. Nó bây giờ hỗ trợ hàng nghìn mô hình và tất cả các hệ điều hành chính, với các cải tiến giao diện người dùng và trải nghiệm người dùng lớn. Tôi đã xem qua và sử dụng nó, và nó

Câu hỏi thường gặp