Mở rộng Ngữ cảnh của Llama-3 lên hơn 1 triệu Token: Tác động đến Hiệu suất

Mở rộng Ngữ cảnh của Llama-3 lên 1 triệu+ Token: Khám phá Tác động lên Hiệu suất. Bài đăng blog này nghiên cứu khả năng của mô hình Llama-3 được nâng cấp với cửa sổ ngữ cảnh 1 triệu token, phân tích hiệu suất của nó trong các nhiệm vụ như tìm kiếm thông tin, suy luận và hỗ trợ lập trình.

22 tháng 4, 2025

Mở khóa sức mạnh của ngữ cảnh mở rộng với phiên bản mới nhất của Llama-3, hiện có khả năng xử lý lên đến 1 triệu token. Khám phá cách tiến bộ này ảnh hưởng đến hiệu suất và khám phá tiềm năng của nó như một trợ lý lập trình đa năng và công cụ truy xuất thông tin.

Những lợi ích của việc mở rộng Llama-3 lên hơn 1 triệu token
Hiểu về Bài kiểm tra Kim trong Đống Rơm
Huấn luyện mô hình Llama-3 với hơn 1 triệu token
Chạy mô hình Llama-3 với hơn 1 triệu token tại máy cục bộ
Đánh giá hiệu suất của mô hình trên các lời nhắc khác nhau
Những hạn chế của phiên bản được định lượng 4-bit
Llama-3 như một trợ lý lập trình
Kết luận

Những lợi ích của việc mở rộng Llama-3 lên hơn 1 triệu token

Phiên bản mở rộng của Llama-3 với cửa sổ ngữ cảnh lên đến 1 triệu token thể hiện một số lợi ích:

Cải thiện Truy xuất Thông tin: Cửa sổ ngữ cảnh lớn hơn cho phép mô hình truy xuất thông tin liên quan tốt hơn từ một đầu vào nhất định, như được thể hiện qua kết quả ấn tượng trong bài kiểm tra "kim trong đống rơm".
Nâng cao Khả năng Lập luận: Mặc dù kết quả cho việc truy xuất nhiều sự kiện không được đưa ra, nhưng hiệu suất tốt của mô hình trong việc truy xuất một sự kiện đơn lẻ gợi ý về những cải thiện tiềm năng trong khả năng lập luận của nó so với các mô hình có cửa sổ ngữ cảnh nhỏ hơn.
Đào tạo Hiệu quả: Quá trình đào tạo mô hình Llama-3 mở rộng tương đối nhanh, chỉ yêu cầu 1,4 tỷ token, ít hơn 0,1% so với dữ liệu đào tạo ban đầu của Llama-3. Phương pháp đào tạo hiệu quả này là minh chứng cho hiệu quả của kỹ thuật tối ưu hóa Rope Theta.
Giảm Yêu cầu Bộ nhớ: Phiên bản Llama-3 mở rộng được định lượng 4-bit có thể chạy trên hệ thống với chỉ 64GB VRAM, giúp nó trở nên dễ tiếp cận hơn với nhiều người dùng và nhà nghiên cứu.
Tiềm năng Cải thiện Hiệu suất: Mô hình Llama-3 mở rộng có tiềm năng vượt trội so với mô hình gốc 8 tỷ tham số trong các nhiệm vụ yêu cầu truy xuất và lập luận thông tin từ nội dung dài, như hỗ trợ lập trình và trích xuất thông tin.

Nói chung, mô hình Llama-3 mở rộng với cửa sổ ngữ cảnh mở rộng đại diện cho một bước tiến đáng kể trong việc phát triển các mô hình ngôn ngữ lớn, thể hiện lợi ích của các nỗ lực nguồn mở trong việc đẩy mạnh giới hạn của những gì có thể đạt được.

Hiểu về Bài kiểm tra Kim trong Đống Rơm

Bài kiểm tra "kim trong đống rơm" là một cách để đánh giá khả năng lập luận và truy xuất của các mô hình ngôn ngữ lớn (LLM) như Lama 3. Trong bài kiểm tra này, một sự kiện hoặc tuyên bố ngẫu nhiên được đặt ở giữa một ngữ cảnh lớn hơn ("đống rơm"), và mô hình được yêu cầu truy xuất tuyên bố này.

Bài kiểm tra bao gồm lặp lại qua các độ sâu tài liệu và độ dài ngữ cảnh khác nhau để đo hiệu suất của mô hình. Các nhận thức chính từ bài kiểm tra này là:

Kích thước Cửa sổ Ngữ cảnh: Các cửa sổ ngữ cảnh lớn hơn (ví dụ: 128.000 token cho GPT-4) cho phép mô hình truy xuất tốt hơn một sự kiện đơn lẻ, bất kể vị trí của nó trong ngữ cảnh. Tuy nhiên, khi kích thước cửa sổ ngữ cảnh tăng lên, độ chính xác của mô hình trong việc truy xuất nhiều sự kiện từ ngữ cảnh bắt đầu giảm đi.
Truy xuất so với Lập luận: Bài kiểm tra "kim trong đống rơm" nổi bật sự đánh đổi giữa khả năng truy xuất của mô hình (tìm một sự kiện đơn lẻ) và khả năng lập luận của nó (hiểu và truy xuất nhiều sự kiện). Các cửa sổ ngữ cảnh lớn hơn cải thiện khả năng truy xuất, nhưng có thể ảnh hưởng tiêu cực đến hiệu suất lập luận của mô hình.
Hiệu suất của Lama 3: Phiên bản mở rộng của Lama 3 với cửa sổ ngữ cảnh 1 triệu token hoạt động tốt trong nhiệm vụ truy xuất một sự kiện đơn lẻ, nhưng các tác giả không đưa ra kết quả cho việc truy xuất nhiều sự kiện. Thông tin này sẽ rất có giá trị để hiểu đầy đủ về khả năng của mô hình.

Huấn luyện mô hình Llama-3 với hơn 1 triệu token

Mô hình Llama-3 với cửa sổ ngữ cảnh 1 triệu token được phát triển thông qua các nỗ lực nguồn mở. Mô hình Llama-3 gốc có cửa sổ ngữ cảnh nhỏ hơn nhiều, chỉ 8.000 token, đáng kể hơn so với các mô hình ngôn ngữ lớn (LLM) khác như Mistral 7B Instruct, có cửa sổ ngữ cảnh 32.000 token.

Nhóm nghiên cứu đã mở rộng cửa sổ ngữ cảnh của Llama-3 lên 1 triệu token bằng cách sử dụng một kỹ thuật gọi là tối ưu hóa Rope Theta. Điều này cho phép họ đạt được sự gia tăng đáng kể về kích thước cửa sổ ngữ cảnh với lượng đào tạo bổ sung tối thiểu, chỉ sử dụng 1,4 tỷ token, ít hơn 0,1% so với dữ liệu đào tạo ban đầu của Llama-3.

Quá trình đào tạo bao gồm việc tăng dần kích thước cửa sổ ngữ cảnh, bắt đầu từ 65.000 token, sau đó là 260.000 token và cuối cùng đạt 1 triệu token. Phương pháp từng bước này cho phép nhóm nghiên cứu đào tạo mô hình một cách hiệu quả mà không cần quá nhiều tài nguyên tính toán.

Kết quả của nỗ lực này rất ấn tượng, đặc biệt là trong bài kiểm tra "kim trong đống rơm", nơi mô hình thể hiện hiệu suất tốt trong việc truy xuất một sự kiện đơn lẻ từ cửa sổ ngữ cảnh lớn. Tuy nhiên, các nhà nghiên cứu không đưa ra kết quả về khả năng truy xuất nhiều sự kiện của mô hình, thông tin này sẽ rất có giá trị.

Chạy mô hình Llama-3 với hơn 1 triệu token tại máy cục bộ

Để chạy phiên bản 1 triệu token của mô hình Llama-3 tại chỗ, bạn sẽ cần sử dụng triển khai Llama do nhóm Anthropic cung cấp, được gọi là OLlama. Dưới đây là các bước:

Cài đặt OLlama trên hệ thống của bạn. Bạn có thể tìm thấy hướng dẫn trong các video trước đó được đề cập trong mô tả.
Tải xuống mô hình Llama-3 Gradient 1 triệu token. Bạn có thể tìm thấy liên kết trong bản ghi.
Chạy lệnh OLlama để tải mô hình:
```
oma run Llama3-gradient
```
Điều này sẽ tải xuống mô hình lần đầu tiên, có thể mất một thời gian.
Đặt cửa sổ ngữ cảnh theo kích thước mong muốn. Trong ví dụ, cửa sổ ngữ cảnh được đặt thành 256.000 token:
```
/set_parameter context_window 256000
```
Lưu ý rằng yêu cầu bộ nhớ để chạy mô hình 1 triệu token có thể vượt quá 100 GB VRAM, vì vậy hãy đảm bảo hệ thống của bạn có đủ tài nguyên.
Kiểm tra khả năng của mô hình bằng cách thử các lời nhắc khác nhau, chẳng hạn như kiểm tra hành vi không bị kiểm duyệt, khả năng lập luận và hỗ trợ lập trình.

Đánh giá hiệu suất của mô hình trên các lời nhắc khác nhau

Mô hình đã được kiểm tra với nhiều lời nhắc khác nhau để đánh giá khả năng của nó:

Lời nhắc không bị kiểm duyệt: Mô hình tương đối không bị kiểm duyệt so với các phiên bản trước, từ chối cung cấp hướng dẫn cho các hoạt động bất hợp pháp như phá xe. Tuy nhiên, nó sẵn sàng cung cấp thông tin về cách giết một tiến trình Linux, thể hiện khả năng cung cấp thông tin kỹ thuật.
Khả năng Lập luận: Mô hình hoạt động tốt trong các nhiệm vụ lập luận, chính xác xác định rằng không có "Sally" trong bài toán đưa ra và xác định số anh em. Nó cũng có thể tạo ra một trò đùa đơn giản, thể hiện khả năng sáng tạo của nó.
Truy xuất Thông tin: Mô hình hoạt động tốt trong các nhiệm vụ truy xuất ngữ cảnh ngắn, trả lời chính xác các câu hỏi dựa trên thông tin được cung cấp. Tuy nhiên, khi được kiểm tra trên một tài liệu dài 27 trang với một tuyên bố ngoài ngữ cảnh, mô hình không thể truy xuất thông tin không liên quan, thay vào đó là tạo ra các phản hồi bịa đặt.
Hỗ trợ Lập trình: Mô hình có thể xác định và sửa lỗi trong một chương trình Python đơn giản, thể hiện tiềm năng của nó như một trợ lý lập trình.

Những hạn chế của phiên bản được định lượng 4-bit

Việc kiểm tra phiên bản Llama 3 được định lượng 4-bit với cửa sổ ngữ cảnh 1 triệu token đã tiết lộ một số hạn chế:

Bịa đặt và Truy xuất Không chính xác: Khi được trình bày với một ngữ cảnh lớn 27 trang, mô hình gặp khó khăn trong việc truy xuất chính xác thông tin cụ thể. Thay vào đó, nó thường bịa đặt chi tiết không liên quan hoặc tạo ra văn bản không có ý nghĩa.
Các Sản phẩm Phụ của Định lượng: Việc định lượng mạnh mẽ của mô hình xuống 4-bit dường như đã ảnh hưởng tiêu cực đến khả năng lập luận và truy xuất của nó, đặc biệt khi xử lý nội dung dài. Điều này có thể do sự mất độ chính xác trong quá trình định lượng.
Các Vấn đề Tiềm ẩn với Triển khai AMA: Tác giả nghi ngờ rằng triển khai AMA có thể không xử lý đúng token kết thúc chuỗi, điều này có thể góp phần vào xu hướng của mô hình tạo ra các vòng lặp vô tận của văn bản không có sự liên kết.
Các Ràng buộc về Tài nguyên: Chạy phiên bản 1 triệu token của mô hình Llama 3 yêu cầu một lượng bộ nhớ GPU đáng kể, với phiên bản định lượng 4-bit cần ít nhất 64GB VRAM cho cửa sổ ngữ cảnh 256.000 token. Yêu cầu tài nguyên cao này có thể hạn chế khả năng sử dụng thực tế của mô hình này đối với nhiều người dùng.

Llama-3 như một trợ lý lập trình

Mô hình Llama-3 với cửa sổ ngữ cảnh 1 triệu token thể hiện khả năng hứa hẹn như một trợ lý lập trình. Khi được cung cấp một chương trình Python đơn giản có một số lỗi, mô h

Câu hỏi thường gặp

Cái kim trong bài kiểm tra HCH là gì?

Các nhà nghiên cứu đã mở rộng cửa sổ ngữ cảnh của Llama-3 như thế nào?

Yêu cầu bộ nhớ để chạy phiên bản Llama-3 1 triệu mã thông báo là bao nhiêu?

Mô hình Llama-3 mở rộng đã hoạt động như thế nào trong bài kiểm tra cái kim trong HCH so với mô hình ban đầu?

Mô hình Llama-3 mở rộng hoạt động như thế nào trên các bộ kiểm tra khác so với mô hình ban đầu?

Tạo bạn gái AI của bạn

Xây dựng người bạn đồng hành lý tưởng của bạn với AI Girlfriend Builder của chúng tôi