Thế giới AI Tuần này: Các thông báo đột phá từ Google và OpenAI
Khám phá những bước đột phá mới nhất về trí tuệ nhân tạo từ Google và OpenAI. Khám phá các khả năng nâng cao của GPT-4, những thay đổi trong lãnh đạo của OpenAI và loạt thông báo về trí tuệ nhân tạo của Google tại sự kiện I/O 2024. Cập nhật diễn biến nhanh chóng của cảnh quan trí tuệ nhân tạo.
15 tháng 2, 2025

Tuần này chứng kiến một loạt các thông báo lớn về trí tuệ nhân tạo từ các công ty công nghệ hàng đầu như Google và OpenAI. Từ việc ra mắt GPT-4, một mô hình ngôn ngữ mạnh mẽ mới, đến những tiến bộ thú vị trong các lĩnh vực như tạo video và thực tế tăng cường, đây là một thời điểm quan trọng trong thế giới trí tuệ nhân tạo đang phát triển nhanh chóng. Hãy tìm hiểu những bước đột phá mới nhất sẽ định hình tương lai.
GPT-40: Trợ lý AI đa phương tiện
Khám phá khả năng của GPT-40
Ilia Sutskever rời Open AI
Những sự ra đi quan trọng khỏi Nhóm Siêu Liên kết
Google IO 2024: Mô hình Gemini, Dự án Astra và Nhiều Hơn Nữa
Các Cập Nhật AI Khác: Anthropic, Hume và Tương Lai của Hẹn Hò
Kết Luận
GPT-40: Trợ lý AI đa phương tiện
GPT-40: Trợ lý AI đa phương tiện
Mô hình mới nhất của Open AI, GPT-40, là một trợ lý AI đa phương thức đột phá có thể xử lý nhiều loại đầu vào và đầu ra khác nhau. Một số điểm nổi bật chính:
-
Khả năng đa phương thức: GPT-40 có thể hiểu và tạo ra nội dung ở nhiều định dạng khác nhau, bao gồm văn bản, âm thanh, hình ảnh và video. Điều này cho phép các tương tác tự nhiên và có ngữ cảnh hơn.
-
Miễn phí cho tất cả mọi người: Các tính năng nâng cao của GPT-40, như duyệt web, giải thích mã và phân tích dữ liệu, giờ đã có sẵn cho tất cả người dùng ChatGPT miễn phí. Thành viên ChatGPT Plus trả phí sẽ nhận được các lợi ích bổ sung như thời gian phản hồi nhanh hơn và giới hạn đầu ra cao hơn.
-
Khả năng giao tiếp: GPT-40 có thể tham gia vào các cuộc trò chuyện giống con người, với khả năng hiểu giọng điệu, cung cấp hỗ trợ cảm xúc và thậm chí kể câu chuyện với cách diễn đạt sinh động.
-
Hiểu biết về hình ảnh: Mô hình này có thể diễn giải thông tin hình ảnh, chẳng hạn như giải quyết các bài toán toán học bằng cách phân tích hình ảnh, và tạo ra hình ảnh dựa trên mô tả bằng văn bản.
-
Tích hợp máy tính để bàn: Open AI đã phát hành một ứng dụng máy tính để bàn cho phép người dùng truy cập trực tiếp GPT-40 trên máy tính của họ, với khả năng chia sẻ nội dung màn hình và nhận được hỗ trợ dựa trên ngữ cảnh.
Nói chung, GPT-40 đại diện cho một bước tiến lớn trong khả năng của trí tuệ nhân tạo, kết hợp hiểu biết ngôn ngữ nâng cao với tương tác đa phương thức. Điều này mở ra những khả năng mới về cách con người có thể hợp tác và sử dụng trợ lý AI trong cuộc sống và công việc hàng ngày của họ.
Khám phá khả năng của GPT-40
Khám phá khả năng của GPT-40
Mô hình GPT-40 mới của Open AI là một mô hình ngôn ngữ mạnh mẽ và đa năng vượt xa việc chỉ tạo ra văn bản. Dưới đây là một số khả năng chính của GPT-40 đã được trình diễn:
Khả năng đa phương thức
GPT-40 là một mô hình đa phương thức, có nghĩa là nó có thể xử lý và hiểu các loại phương tiện khác nhau như âm thanh, video và hình ảnh ngoài văn bản. Điều này cho phép nó thực hiện các nhiệm vụ kết hợp nhiều phương thức, như mô tả nội dung của một hình ảnh hoặc video.
Giao tiếp nâng cao
Mô hình đã thể hiện khả năng giao tiếp ấn tượng, tham gia vào đối thoại hai chiều và thậm chí thể hiện các giọng điệu và phong cách khác nhau. Nó có thể hiểu ngữ cảnh và cung cấp phản hồi liên quan và nhất quán.
Giải quyết vấn đề từng bước
Khi được đưa ra một bài toán toán học, GPT-40 không chỉ cung cấp câu trả lời cuối cùng. Thay vào đó, nó đi qua quá trình giải quyết từng bước, giải thích lý luận của mình trong suốt quá trình.
Tùy chỉnh đầu ra giọng nói
GPT-40 có thể tạo ra đầu ra giọng nói với giọng điệu, cảm xúc và biểu cảm tùy chỉnh. Điều này cho phép nó nghe tự nhiên và giống con người hơn khi giao tiếp.
Tạo hình ảnh
Ngoài văn bản, GPT-40 cũng có khả năng tạo ra hình ảnh. Các ví dụ được trình diễn bao gồm tạo ra hình ảnh chi tiết với văn bản dễ đọc, cũng như tạo ra các thiết kế nhân vật nhất quán qua nhiều cảnh.
Tổng hợp đối tượng 3D
Mô hình này có thể lấy hình ảnh 2D và tạo ra các bản tái tạo 3D, hoạt hình chúng và đặt logo hoặc các yếu tố khác lên các đối tượng 3D.
Nói chung, các khả năng được trình diễn bởi GPT-40 thể hiện sự đa dạng và sự tiến bộ nhanh chóng trong các mô hình ngôn ngữ lớn. Khả năng kết hợp liền mạch các phương thức khác nhau và thực hiện các nhiệm vụ phức tạp, nhiều bước cho thấy tiềm năng biến đổi của công nghệ này.
Ilia Sutskever rời Open AI
Ilia Sutskever rời Open AI
Ilia Sutskever, một trong những người sáng lập ban đầu của OpenAI, đã quyết định rời khỏi công ty. Sau gần một thập kỷ tại OpenAI, Sutskever đã quyết định rời khỏi công ty.
Sutskever là một phần của hội đồng quản trị đã quyết định sa thải Giám đốc điều hành của OpenAI, Sam Altman, vào tháng 11 năm 2023. Tuy nhiên, Sutskever sau đó đã hối tiếc về quyết định này và xin lỗi công khai, cho rằng việc sa thải Altman là một sai lầm.
Mặc dù lý do Sutskever rời đi không hoàn toàn rõ ràng, nhưng có vẻ như ông không hoàn toàn đồng thuận với hướng đi của OpenAI. Với tư cách là một nhà nghiên cứu và học giả, Sutskever có thể quan tâm nhiều hơn đến khoa học và công nghệ đằng sau trí tuệ nhân tạo, thay vì việc thương mại hóa và kinh doanh công nghệ này.
Trong thông điệp chia tay của mình, Sutskever bày tỏ niềm tin vào sự lãnh đạo của OpenAI dưới sự điều hành của Altman, Greg Brockman và Mira Murati, và cho biết ông rất phấn khích với những gì sẽ đến tiếp theo trong dự án cá nhân của mình, mà ông sẽ chia sẻ chi tiết về nó vào thời điểm thích hợp.
Sự ra đi của Sutskever là một tổn thất đáng kể cho OpenAI, vì ông là một trong những thành viên sáng lập của công ty và là một nguồn sáng trong lĩnh vực trí tuệ nhân tạo. Tuy nhiên, công ty dường như đang tiến lên với các kế hoạch tham vọng của mình, bao gồm việc gần đây phát hành mô hình mạnh mẽ GPT-4.
Vẫn chưa rõ sự ra đi của Sutskever sẽ ảnh hưởng như thế nào đến hướng đi của OpenAI, nhưng rõ ràng công ty đang trải qua một quá trình chuyển đổi đáng kể khi nó tiếp tục mở rộng ranh giới của trí tuệ nhân tạo.
Những sự ra đi quan trọng khỏi Nhóm Siêu Liên kết
Những sự ra đi quan trọng khỏi Nhóm Siêu Liên kết
Theo các báo cáo, một số thành viên chủ chốt của nhóm siêu liên kết tại OpenAI đã rời khỏi công ty. Điều này bao gồm Yan Lecun, Leopold Ashenbrener và William Saunders.
Những cá nhân này là một phần của nhóm chịu trách nhiệm đảm bảo rằng các hệ thống trí tuệ nhân tạo do OpenAI phát triển, như GPT-4, vẫn an toàn và có lợi ích. Sự ra đi của họ là một điều đáng lo ngại, vì nó gợi ý về những vấn đề hoặc bất đồng tiềm ẩn bên trong công ty xung quanh hướng đi và an toàn của các mô hình trí tuệ nhân tạo tiên tiến của họ.
Nhóm siêu liên kết đóng một vai trò quan trọng trong việc cố gắng giảm thiểu các rủi ro của các hệ thống trí tuệ nhân tạo mạnh mẽ. Việc họ rời đi có thể là tín hiệu của những căng thẳng nội bộ hoặc sự thay đổi ưu tiên tại OpenAI, ưu tiên phát triển nhanh hơn so với các biện pháp an toàn mạnh mẽ.
Tin này đến ngay sau khi Ilya Sutskever, một trong những người đồng sáng lập của OpenAI, thông báo rằng ông sẽ rời khỏi công ty để theo đuổi một dự án "có ý nghĩa cá nhân" mới.
Mất đi những nhân vật chủ chốt này, đặc biệt là những người tập trung vào an toàn trí tuệ nhân tạo, là một diễn biến đáng lo ngại và cần được theo dõi chặt chẽ. Điều này đặt ra những câu hỏi về hướng đi và ưu tiên trong tương lai của OpenAI khi họ tiếp tục mở rộng các mô hình ngôn ngữ lớn và các khả năng trí tuệ nhân tạo tiên tiến khác.
Google IO 2024: Mô hình Gemini, Dự án Astra và Nhiều Hơn Nữa
Google IO 2024: Mô hình Gemini, Dự án Astra và Nhiều Hơn Nữa
Thông báo lớn nhất từ Google IO 2024 là việc giới thiệu các mô hình trí tuệ nhân tạo Gemini. Gemini 1.5 Flash và Gemini 1.5 Pro là các mô hình ngôn ngữ lớn mới từ Google.
Gemini 1.5 Flash là một mô hình nhanh hơn, trong khi Gemini 1.5 Pro được thiết kế để có đầu ra tốt nhất có thể. Cả hai mô hình đều có cửa sổ ngữ cảnh 1 triệu token, với kế hoạch tăng lên 2 triệu token trong tương lai. Điều này cho phép đầu vào và đầu ra khoảng 1,5 triệu từ.
Một điểm nổi bật khác là Dự án Astra, cho phép một chiếc điện thoại di động nhìn thấy những gì camera đang nhìn và trả lời các câu hỏi về nó. Bài trình diễn cho thấy điện thoại nhớ các chi tiết như vị trí của một cặp kính, và người thuyết trình có thể tiếp tục tương tác với hệ thống bằng cách sử dụng một cặp kính thực tế ảo, gợi ý về các khả năng tương tự như Google Glass trong tương lai.
Google cũng đã trình diễn mô hình chuyển văn bản thành hình ảnh mới của họ, Imagine 3, đang tiến gần đến mức thực tế của các mô hình như Midjourney. Họ đã trình diễn một mô hình tạo video mới được gọi là Veo, có thể tạo ra các video 1080p dài hơn 1 phút, mặc dù chưa đạt chất lượng của Sorai của Anthropic.
Các thông báo khác bao gồm nâng cấp cho Google Search, Gmail và các công cụ Google Suite khác, thêm các tính năng dựa trên trí tuệ nhân tạo như lý luận nhiều bước, tự động sắp xếp email và hiểu ngữ cảnh của ảnh.
Nói chung, sự kiện IO của Google đã đầy ắp các thông báo liên quan đến trí tuệ nhân tạo, thể hiện sự đẩy mạnh liên tục của công ty trong việc tích hợp trí tuệ nhân tạo vào các sản phẩm và dịch vụ của mình.
Các Cập Nhật AI Khác: Anthropic, Hume và Tương Lai của Hẹn Hò
Các Cập Nhật AI Khác: Anthropic, Hume và Tương Lai của Hẹn Hò
Bắt đầu với Anthropic, công ty này đã tuyển dụng Mike Krieger, đồng sáng lập Instagram, làm Giám đốc Sản phẩm mới. Krieger, người đã là một trong những người sáng lập Instagram cũng như đồng sáng lập ứng dụng tin tức Artifact, sẽ được giao nhiệm vụ thiết kế trải nghiệm người dùng tốt để thu hút nhiều người hơn sử dụng các công cụ của Anthropic như Claude.
Anthropic cũng đã phát hành một tính năng mới là trình tạo lời nhắc trong bảng điều khiển của họ. Người dùng bây giờ có
Câu hỏi thường gặp
Câu hỏi thường gặp

