Các tác nhân được cung cấp bởi Llama 3.1: Kiểm tra khả năng gọi hàm

Khám phá khả năng của Llama 3.1 trong việc gọi hàm và sử dụng công cụ. Tìm hiểu cách khai thác các công cụ quan sát như LangTrace để theo dõi hiệu suất LLM. Khám phá điểm mạnh và hạn chế của các kích thước mô hình Llama khác nhau trong xử lý nhiệm vụ phức tạp.

16 tháng 2, 2025

Mở khóa sức mạnh của Llama 3.1 với hướng dẫn toàn diện về khả năng gọi hàm của nó. Khám phá cách mô hình ngôn ngữ tiên tiến này có thể được khai thác như một tác nhân thông minh, tích hợp một cách liền mạch với các API để giải quyết các nhiệm vụ phức tạp. Khám phá các khía cạnh quan sát và có được những hiểu biết về hiệu suất của mô hình, giúp bạn đưa ra các quyết định có thông tin cho dự án tiếp theo của bạn.

Khả năng của Llama 3.1 và Hệ thống Agentic của Meta
Thiết lập LangTrace để Quan sát
Kiểm tra Gọi Hàm với Các Mô hình Llama 3.1 70B và 8B
Gọi Hàm Song song và Gọi Hàm Tuần tự Lồng nhau
Khó khăn của Mô hình Llama 3.1 8B trong Gọi Hàm
Mô hình Llama 3 Được Tinh chỉnh của Groq cho Gọi Hàm
Kết luận

Khả năng của Llama 3.1 và Hệ thống Agentic của Meta

Một trong những khả năng chính của Llama 3.1 mà Meta đã nhấn mạnh trong bản phát hành là gọi hàm hoặc sử dụng công cụ. Tác giả muốn kiểm tra khả năng này.

Trước tiên, tác giả thiết lập các công cụ và API cần thiết, bao gồm API Groq, cung cấp một trong những API nhanh nhất để tương tác với Llama 3.1. Họ đã kiểm tra các mô hình Llama 3.1 70 tỷ và 8 tỷ, cũng như một phiên bản đã được tinh chỉnh cụ thể cho Groq của mô hình 70 tỷ.

Tác giả bắt đầu với một ví dụ đơn giản về một lệnh gọi hàm đơn lẻ, sau đó chuyển sang các kịch bản phức tạp hơn bao gồm các lệnh gọi hàm song song và lồng nhau. Họ sử dụng nền tảng quan sát LangTrace để theo dõi việc sử dụng token và các chỉ số khác trong các thí nghiệm.

Thiết lập LangTrace để Quan sát

Trong phần này, chúng ta sẽ thiết lập LangTrace, một nền tảng quan sát mã nguồn mở và mã nguồn mở cho các ứng dụng LLM. LangTrace cho phép chúng ta theo dõi số lượng yêu cầu và token được trao đổi giữa môi trường cục bộ của chúng ta và API LLM.

Đầu tiên, chúng ta cần cài đặt các gói cần thiết, bao gồm SDK Python của LangTrace, SDK Python của Groq và SDK Python của OpenAI (mặc dù chúng ta không sử dụng LLM của OpenAI, nhưng nó là một phụ thuộc của SDK LangTrace).

Tiếp theo, chúng ta thiết lập các khóa API của mình. Đối với thí nghiệm này, chúng ta không cần LangTrace một cách nghiêm ngặt, nhưng nó có thể cung cấp những hiểu biết có giá trị về việc sử dụng token của chúng ta. LangTrace có chức năng tương tự như LangSmith, một nền tảng quan sát từ LangChain, nhưng nó hỗ trợ nhiều nhà cung cấp hơn, bao gồm OpenAI, Groq, Cohere và Perplexity.

Kiểm tra Gọi Hàm với Các Mô hình Llama 3.1 70B và 8B

Tác giả bắt đầu bằng cách nhấn mạnh việc Meta phát hành một hệ thống tác nhân xung quanh việc gọi hàm trong Llama 3.1. Vì tác giả chưa thiết lập hệ thống cục bộ, nên họ quyết định sử dụng API Groq, cung cấp một trong những API nhanh nhất để tương tác với Llama 3.1.

Tác giả kiểm tra các mô hình Llama 3.1 70B và 8B, cũng như một phiên bản đã được tinh chỉnh cụ thể cho Groq của mô hình 70B. Họ sử dụng LangTrace, một nền tảng quan sát mã nguồn mở cho các ứng dụng LLM, để theo dõi số lượng yêu cầu và token được trao đổi giữa môi trường cục bộ và API LLM.

Tác giả bắt đầu với một ví dụ đơn giản, nơi mô hình cần sử dụng một hàm "lấy điểm trò chơi" để xác định người chiến thắng trong một trận NBA. Mô hình 70B thực hiện thành công nhiệm vụ này và tác giả kiểm tra dữ liệu LangTrace để hiểu cơ chế bên trong.

Gọi Hàm Song song và Gọi Hàm Tuần tự Lồng nhau

Mô hình Llama 3.1 70B đã thể hiện khả năng xử lý các lệnh gọi hàm song song và lồng nhau một cách ấn tượng. Khi được yêu cầu lập kế hoạch cho một chuyến đi từ New York đến London và sau đó đến Tokyo, bao gồm thời tiết, chuyến bay, khách sạn và điểm tham quan, mô hình 70B đã thực hiện tốt, trong khi mô hình 8B gặp khó khăn.

Cuối cùng, tác giả kiểm tra mô hình 70B đã được tinh chỉnh cụ thể cho Groq, mô hình này đáng ngạc nhiên lại gặp khó khăn ngay cả với nhiệm vụ đơn giản "lấy điểm trò chơi", liên tục yêu cầu thêm chi tiết cụ thể thay vì sử dụng hàm đã cung cấp.

Kết luận, tác giả nhận thấy mô hình Llama 3.1 70B là lựa chọn tốt nhất khi đến việc gọi hàm và sử dụng công cụ, có thể xử lý các lệnh gọi hàm song song và lồng nhau. Mô hình 8B, mặt khác, không được khuyến nghị cho các tác vụ gọi hàm nghiêm túc. Mô hình tinh chỉnh cụ thể cho Groq cũng không đạt kết quả tốt trong các bài kiểm tra của tác giả.

Khó khăn của Mô hình Llama 3.1 8B trong Gọi Hàm

Mô hình Llama 3.1 8B gặp nhiều khó khăn hơn so với mô hình 70B trong các tác vụ gọi hàm phức tạp hơn. Một số quan sát chính:

Đối với hàm "lấy điểm trò chơi" đơn giản, mô hình 8B có thể xử lý mà không gặp vấn đề, tương tự như mô hình 70B.
Tuy nhiên, khi đến các lệnh gọi hàm song song cho các tác vụ như lập kế hoạch chuyến đi, mô hình 8B gặp khó khăn. Nó không thể cung cấp thông tin toàn diện về thời tiết, chuyến bay, khách sạn và điểm tham quan, thường tạo ra thông tin sai lệch hoặc không liệt kê các tùy chọn có sẵn.
Với tập hợp các hàm mở rộng, mô hình 8B gặp nhiều khó khăn hơn, tạo ra thông tin sai lệch về sự kiện và chi tiết thời tiết không được yêu cầu.

Mô hình Llama 3 Được Tinh chỉnh của Groq cho Gọi Hàm

Mô hình tinh chỉnh chức năng gọi hàm của Groq cũng không hoạt động tốt trong các bài kiểm tra, thường yêu cầu thêm chi tiết cụ thể thay vì sử dụng hiệu quả các công cụ đã cung cấp.

Trong khi đó, mô hình Llama 3.1 70B đã thể hiện khả năng mạnh mẽ hơn nhiều trong việc xử lý các lệnh gọi hàm song song và lồng nhau, cung cấp các phản hồi toàn diện và chính xác. Mô hình 8B đơn giản không có vẻ sẵn sàng cho các tác vụ gọi hàm nghiêm túc hoặc tác nhân, và mô hình Groq chuyên dụng cũng không đạt kết quả tốt trong các bài kiểm tra này.

Kết luận

Mô hình Llama 3 đã được tinh chỉnh của Groq cho việc gọi hàm gặp khó khăn trong các bài kiểm tra so với mô hình Llama 3.1 lớn hơn 70B. Một số phát hiện chính:

Khi được yêu cầu cung cấp điểm số của một trận Warriors, mô hình yêu cầu thêm chi tiết cụ thể như ngày hoặc đội đối thủ, thay vì sử dụng hàm "lấy điểm trò chơi" đã cung cấp.
Đối với các yêu cầu lập kế hoạch chuyến đi, mô hình liên tục yêu cầu thêm chi tiết cụ thể như ngày đi, thay vì sử dụng các hàm đã cung cấp để tạo ra phản hồi.
Đối với nhiệm vụ khuyến nghị đêm xem phim, mô hình gặp khó khăn trong việc sử dụng các hàm lồng nhau và thường chuyển sang cung cấp trực tiếp khuyến nghị phim thay vì.

Mô hình Llama 3.1 70 tỷ từ Groq đã thể hiện rất tốt trong các bài kiểm tra về gọi hàm và sử dụng công cụ. Nó có thể xử lý các lệnh gọi hàm song song cũng như lồng nhau một cách dễ dàng, thể hiện khả năng mạnh mẽ của nó như một hệ thống tác nhân.

Trong khi đó, mô hình Llama 3.1 8 tỷ gặp khó khăn với những tác vụ phức tạp hơn này, nhấn mạnh tầm quan trọng của việc sử dụng các mô hình ngôn ngữ lớn và có khả năng hơn cho các ứng dụng như vậy.

Tuy nhiên, mô hình gọi hàm chuyên dụng từ Groq lại không hoạt động tốt như mong đợi, ngay cả với ví dụ đã cung cấp. Điều này gợi ý rằng quá trình tinh chỉnh cho mô hình này có thể chưa hiệu quả như mong muốn.

Đối với mục đích quan sát và theo dõi, nền tảng quan sát LangTrace AI mã nguồn mở đã chứng tỏ là một công cụ có giá trị, cung cấp những hiểu biết chi tiết về việc sử dụng token và các cuộc gọi API của các mô hình ngôn ngữ trong các thí nghiệm.

Câu hỏi thường gặp

Những khả năng nào của Llama 3.1 mà Meta đã nhấn mạnh trong bản phát hành?

API nào được sử dụng trong video này để kiểm tra khả năng gọi hàm của Llama 3.1?

Những mô hình Llama 3.1 nào được kiểm tra trong video này?

Công cụ quan sát nào được sử dụng trong video này để theo dõi việc sử dụng các mô hình Llama 3.1?

Những khả năng chính của mô hình Llama 3.1 70 tỷ được kiểm tra trong video này là gì?

Mô hình Llama 3.1 8 tỷ và mô hình gọi hàm cụ thể của Groq thể hiện như thế nào trong các bài kiểm tra?

Tạo bạn gái AI của bạn

Xây dựng người bạn đồng hành lý tưởng của bạn với AI Girlfriend Builder của chúng tôi