Google Gemma-2: Những Hiểu Biết Kỹ Thuật và Bước Đột Phá trong Các Mô Hình Ngôn Ngữ Lớn

Khám phá những hiểu biết và bước đột phá kỹ thuật đằng sau các mô hình ngôn ngữ Gemma-2 của Google. Khám phá kiến trúc, kỹ thuật đào tạo và các tiêu chuẩn đánh giá hiệu suất làm nổi bật những mô hình ngôn ngữ lớn này. Hiểu sâu hơn về những tiến bộ trong lĩnh vực này.

15 tháng 2, 2025

party-gif

Mở khóa sức mạnh của những tiến bộ mới nhất trong các mô hình ngôn ngữ với báo cáo kỹ thuật Gemma 2 đi sâu. Khám phá cách tiếp cận sáng tạo của Google đối với việc trích xuất kiến thức và các cải tiến về kiến trúc đã dẫn đến hiệu suất tối tân trên các tiêu chuẩn học thuật và các ứng dụng trò chuyện thực tế. Phân tích toàn diện này cung cấp những hiểu biết quý giá có thể giúp bạn khai thác tối đa những mô hình ngôn ngữ tiên tiến này để nâng cao các dự án của riêng bạn.

Các Đổi Mới Kiến Trúc trong Gemma 2

Gemma 2, mô hình ngôn ngữ mã nguồn mở mới nhất của Google, giới thiệu một số đổi mới về kiến trúc góp phần vào hiệu suất mạnh mẽ của nó. Mô hình sử dụng kiến trúc Transformer chỉ có bộ giải mã, đơn giản hóa thiết kế mô hình so với cấu hình mã hóa-giải mã truyền thống.

Một đổi mới quan trọng là sử dụng kích thước từ vựng lớn lên đến 256.000 mã thông báo. Điều này cho phép mô hình xử lý một loạt các nhiệm vụ đa ngôn ngữ, mặc dù chủ yếu được đào tạo trên dữ liệu tiếng Anh. Kích thước từ vựng lớn cung cấp cho mô hình một sự hiểu biết từ vựng phong phú, cho phép nó hoạt động tốt trong các lĩnh vực ngôn ngữ đa dạng.

Ngoài ra, kiến trúc Gemma 2 bao gồm một số sửa đổi so với thiết kế Transformer tiêu chuẩn. Những thay đổi này bao gồm điều chỉnh cơ chế chú ý, chuẩn hóa lớp và các kết nối dư thừa, nhằm cải thiện hiệu quả và hiệu suất của mô hình. Báo cáo kỹ thuật cung cấp những hiểu biết chi tiết về các lựa chọn kiến trúc này và tác động của chúng đối với hiệu suất của mô hình.

Hơn nữa, Gemma 2 sử dụng phương pháp truyền thụ kiến thức để đào tạo các phiên bản mô hình nhỏ hơn, chẳng hạn như các phiên bản có 9 tỷ và 27 tỷ tham số. Bằng cách truyền thụ kiến thức từ một mô hình giáo viên lớn hơn, các mô hình học sinh nhỏ hơn có thể đạt được kết quả tốt trong khi vẫn duy trì kích thước thực tế hơn cho việc triển khai. Kỹ thuật này cho thấy tiềm năng của việc đào tạo hiệu quả các mô hình ngôn ngữ có hiệu suất cao mà không cần các tập dữ liệu và tài nguyên tính toán khổng lồ.

Các Tập Dữ Liệu Đào Tạo Đa Dạng Được Sử Dụng

Các mô hình Gemini 2 của Google được đào tạo trên một tập dữ liệu đa dạng, bao gồm cả các nguồn dữ liệu nội bộ và công khai bên ngoài. Các khía cạnh chính của dữ liệu đào tạo là:

  1. Lời nhắc LMS Chat: Nhóm đã sử dụng các lời nhắc (nhưng không phải là các câu trả lời) từ tập dữ liệu LMS Chat, một tập dữ liệu công khai về các lời nhắc hội thoại. Điều này cho phép các mô hình học từ một loạt các kịch bản hội thoại mà không bị ảnh hưởng bởi các câu trả lời đã được xác định trước.

  2. Dữ liệu nội bộ: Ngoài dữ liệu công khai, nhóm cũng sử dụng các nguồn dữ liệu nội bộ để tiền huấn luyện các mô hình. Điều này có thể cung cấp cho các mô hình một cơ sở kiến thức rộng hơn và đa dạng hơn.

  3. Lọc dữ liệu: Tất cả dữ liệu đào tạo đều trải qua một quá trình lọc nghiêm ngặt để loại bỏ nội dung không an toàn hoặc trùng lặp. Điều này giúp đảm bảo rằng các mô hình học từ dữ liệu chất lượng cao và được lựa chọn kỹ càng.

  4. Bộ mã hóa đa ngôn ngữ: Các mô hình sử dụng một bộ mã hóa với từ vựng lớn 256.000 mã thông báo, cho phép chúng xử lý một loạt các ngôn ngữ, bao gồm cả các ngôn ngữ không phải tiếng Anh, trong quá trình đào tạo và suy luận.

Bằng cách khai thác tập dữ liệu đào tạo đa dạng này, các mô hình Gemini 2 đã có thể thu được một cơ sở kiến thức rộng lớn và vững chắc, điều này có thể đóng góp vào hiệu suất mạnh mẽ của chúng trên các tiêu chuẩn đánh giá và các nhiệm vụ hội thoại thực tế.

Truyền Thụ Kiến Thức: Cải Thiện Các Mô Hình Nhỏ Hơn

Một trong những thách thức lớn trong việc đào tạo các mô hình ngôn ngữ lớn là nhu cầu về lượng dữ liệu khổng lồ để tinh chỉnh chúng một cách hiệu quả. Thậm chí các mô hình nhỏ hơn trong gia đình Gemini 2 cũng yêu cầu một lượng dữ liệu đáng kể, với gia đình Lamda 3 được tinh chỉnh trên tới 15 nghìn tỷ mã thông báo, dẫn đến cải thiện chưa đến 1% so với các mô hình tiên tiến nhất.

Để giải quyết vấn đề này, nhóm Gemini 2 đã áp dụng một kỹ thuật gọi là truyền thụ kiến thức. Phương pháp này bao gồm việc sử dụng một mô hình "giáo viên" lớn hơn, chẳng hạn như Gemini 1.5 hoặc Colossal-AI, để đào tạo một mô hình "học sinh" nhỏ hơn. Thay vì dự đoán trực tiếp mã thông báo tiếp theo, mô hình học sinh được đào tạo để khớp với phân phối xác suất của mô hình giáo viên, sử dụng phân kỳ Kullback-Leibler (KL) làm hàm mất mát.

Quá trình truyền thụ kiến thức này được áp dụng trong cả giai đoạn tiền huấn luyện và tinh chỉnh cho các mô hình Gemini 2 nhỏ hơn có 9 và 2 tỷ tham số. Mô hình 27 tỷ tham số, mặt khác, được đào tạo từ đầu mà không sử dụng truyền thụ kiến thức.

Lợi ích của phương pháp này là hai mặt. Thứ nhất, nó cho phép các mô hình nhỏ hơn khai thác kiến thức và khả năng của mô hình giáo viên lớn hơn, cải thiện hiệu suất của chúng trên các tiêu chuẩn đánh giá và nhiệm vụ. Các nghiên cứu loại bỏ được trình bày trong bài báo cho thấy rằng mô hình 2 tỷ mã thông báo được đào tạo bằng truyền thụ kiến thức đạt điểm số 67,8, so với chỉ 60 khi được đào tạo từ đầu.

Thứ hai, quá trình truyền thụ kiến thức cũng cải thiện độ bối rối của các mô hình nhỏ hơn, giúp chúng hiệu quả hơn trong suy luận. Bài báo lưu ý rằng thay đổi kích thước cửa sổ trượt trong suy luận có ảnh hưởng tối thiểu đến độ bối rối, cho phép tăng tốc độ suy luận mà không bị suy giảm hiệu suất đáng kể.

Nói chung, việc sử dụng truyền thụ kiến thức trong các mô hình Gemini 2 là một phương pháp hứa hẹn để đào tạo các mô hình ngôn ngữ nhỏ hơn, hiệu quả hơn mà không hy sinh hiệu suất. Kỹ thuật này có thể có những ảnh hưởng rộng lớn hơn đối với việc phát triển các hệ thống AI thực tế và có hiệu suất cao.

Mẫu Lời Nhắc và Cấu Trúc Cuộc Trò Chuyện

Mô hình Gemini 2 sử dụng một mẫu lời nhắc cụ thể cho các cuộc hội thoại một lượt. Cấu trúc lời nhắc như sau:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_sequence>

Đối với lượt thứ hai trong cuộc hội thoại, lời nhắc sẽ được thêm vào như sau:

<start_of_conversation>
<user_role>
<end_of_turn>
<model_role>
<end_of_turn>
<user_role>
<end_of_sequence>

Các điểm chính là:

  • Lời nhắc bắt đầu với mã thông báo <start_of_conversation>.
  • Mã thông báo <user_role> chỉ ra phần của người dùng trong cuộc hội thoại.
  • Mã thông báo <end_of_turn> phân tách đầu vào của người dùng và phản hồi của mô hình.
  • Mã thông báo <model_role> chỉ ra phần của mô hình trong cuộc hội thoại.
  • Mã thông báo <end_of_sequence> đánh dấu kết thúc của cuộc hội thoại.

Định dạng lời nhắc có cấu trúc này cho phép mô hình hiểu được ngữ cảnh và luồng của cuộc hội thoại, điều này có thể góp phần vào hiệu suất mạnh mẽ của nó trên các tiêu chuẩn đánh giá dựa trên trò chuyện.

Khai Thác Dữ Liệu Trò Chuyện LMS để Đạt Hiệu Suất Tốt Hơn

Phương pháp của Google trong việc đào tạo các mô hình Gemma 2 bao gồm việc khai thác các lời nhắc từ tập dữ liệu LMS chat, nhưng không sử dụng các câu trả lời thực tế. Thay vào đó, họ đã sử dụng mô hình giáo viên để tạo ra các câu trả lời cho những lời nhắc này, sau đó sử dụng chúng để đào tạo các mô hình học sinh thông qua truyền thụ kiến thức.

Chiến lược này có một số lợi ích tiềm năng:

  1. Tránh các xu hướng thiên lệch: Bằng cách không sử dụng các câu trả lời đã được xác định trước từ tập dữ liệu LMS chat, mô hình được khuyến khích trở nên sáng tạo và linh hoạt hơn trong các đầu ra, thay vì chỉ đơn giản bắt chước các xu hướng thiên lệch có trong tập dữ liệu.

  2. Khai thác chuyên môn của mô hình giáo viên: Mô hình giáo viên, lớn hơn và có khả năng hơn, được sử dụng để tạo ra các câu trả lời chất lượng cao cho các lời nhắc LMS chat. Những câu trả lời này sau đó được sử dụng để đào tạo các mô hình học sinh, cho phép chúng hưởng lợi từ chuyên môn của mô hình giáo viên.

  3. Cải thiện hiệu suất trên các tiêu chuẩn LMS: Quá trình truyền thụ kiến thức, kết hợp với việc sử dụng các lời nhắc LMS chat, có thể giúp các mô hình Gemma 2 hoạt động tốt hơn trên các tiêu chuẩn và nhiệm vụ liên quan đến LMS, vì chúng đã được đào tạo cụ thể trên loại dữ liệu này.

Nói chung, phương pháp này cho thấy nỗ lực của Google trong việc khai thác các nguồn dữ liệu đa dạng và các kỹ thuật đào tạo sáng tạo để cải thiện hiệu suất của các mô hình ngôn ngữ của họ, đặc biệt là trên các nhiệm vụ và tiêu chuẩn liên quan đến các ứng dụng thực tế.

Các Nghiên Cứu Loại Bỏ: Xác Nhận Hiệu Quả của Các Kỹ Thuật

Bài báo trình bày các nghiên cứu loại bỏ quan trọng để xác nhận tính hiệu quả của các kỹ thuật được sử dụng trong việc đào tạo các mô hình Gemini 2. Những nghiên cứu này cung cấp những hiểu biết quý giá:

  1. Tác động của truyền thụ kiến thức: Nghiên cứu loại bỏ cho thấy

Câu hỏi thường gặp