Đánh giá hiệu suất của Phi-3-Mini trên RAG, Định tuyến và Đại lý

Đánh giá hiệu suất của Phi-3-Mini trên RAG, định tuyến và đại lý. Khám phá khả năng của mô hình trong các trường hợp sử dụng thực tế, bao gồm các truy vấn RAG đơn giản, phân rã truy vấn phức tạp và điều phối đại lý.

17 tháng 2, 2025

Bài đăng blog này khám phá các khả năng của mô hình ngôn ngữ Phi-3-Mini trong các trường hợp sử dụng thực tế, bao gồm truy xuất, định tuyến truy vấn và các khung công tác dựa trên đại lý. Nội dung cung cấp một phân tích chi tiết về hiệu suất của mô hình trong các nhiệm vụ khác nhau, cung cấp những hiểu biết về điểm mạnh và hạn chế của nó. Độc giả sẽ có được sự hiểu biết tốt hơn về tính phù hợp của mô hình cho các ứng dụng thực tế.

Truy xuất đơn giản và RAG
Truy vấn phức tạp và Giới hạn của RAG
Định tuyến truy vấn và Phân rã truy vấn
Tác nhân và Các phép toán toán học
Kết luận

Truy xuất đơn giản và RAG

Mô hình này hoạt động tương đối tốt trong các nhiệm vụ truy xuất đơn giản bằng cách sử dụng đường ống (pipeline) RAG (Retrieval-Augmented Generation). Khi được hỏi một câu hỏi đơn giản như "OpenAI và Meta khác nhau về các công cụ AI như thế nào", mô hình có thể cung cấp một phản hồi chính xác bằng cách tóm gọn các đoạn văn bản liên quan và tạo ra một bản tóm tắt có ý nghĩa.

Tuy nhiên, khi các truy vấn trở nên phức tạp hơn, mô hình bắt đầu thể hiện một số hạn chế. Ví dụ, khi được hỏi "OpenAI đã thêm những tính năng mới gì vào ChatGPT", mô hình sai lầm khi gán một số tính năng do Meta giới thiệu cho OpenAI, cho thấy xu hướng tạo ra thông tin sai lệch hoặc nhầm lẫn thông tin từ các nguồn khác nhau.

Hiệu suất của mô hình được cải thiện khi sử dụng chế độ "tree summarize", trong đó tóm tắt từng đoạn văn bản một cách đệ quy trước khi tạo ra phản hồi cuối cùng. Cách tiếp cận này giúp giảm thiểu vấn đề thông tin mâu thuẫn giữa các đoạn văn bản khác nhau.

Nói chung, mô hình thể hiện một khả năng tương đối tốt trong các nhiệm vụ truy xuất đơn giản bằng cách sử dụng RAG, nhưng hiệu suất của nó bắt đầu suy giảm khi xử lý các truy vấn phức tạp hơn, những truy vấn này yêu cầu sự hiểu biết sâu sắc hơn về thông tin cơ bản.

Truy vấn phức tạp và Giới hạn của RAG

Hiệu suất của mô hình đối với các truy vấn phức tạp tiết lộ một số hạn chế của phương pháp RAG (Retrieval-Augmented Generation). Mặc dù nó xử lý các truy vấn đơn giản tương đối tốt, nhưng nó gặp khó khăn với các truy vấn phức tạp hơn, những truy vấn này liên quan đến thông tin mâu thuẫn giữa các đoạn tài liệu khác nhau.

Khi được hỏi về các tính năng mới được giới thiệu bởi OpenAI, mô hình đã sai lầm khi gán một số tính năng thực sự được giới thiệu bởi Meta. Điều này cho thấy mô hình gặp khó khăn trong việc hòa giải và tổng hợp thông tin từ nhiều nguồn, đặc biệt khi có sự mâu thuẫn hoặc mâu thuẫn.

Tuy nhiên, khả năng phân rã truy vấn của mô hình dường như hứa hẹn hơn. Khi được đưa ra một truy vấn phức tạp, mô hình có thể chia nó thành các câu hỏi phụ liên quan và truy xuất thông tin tương ứng. Điều này cho thấy mô hình có một số hiểu biết về cấu trúc cơ bản của truy vấn và có thể cố gắng giải quyết nó theo một cách có hệ thống hơn.

Trong bối cảnh điều phối tác nhân, hiệu suất của mô hình là hỗn hợp. Đối với các truy vấn đơn giản, nó có thể xác định rằng không cần công cụ nào và tự tạo ra phản hồi. Tuy nhiên, đối với các truy vấn phức tạp hơn, mô hình gặp khó khăn trong việc sử dụng hiệu quả các công cụ có sẵn để cung cấp một câu trả lời toàn diện.

Nói chung, kết quả cho thấy trong khi mô hình có một số khả năng trong việc xử lý các nhiệm vụ dựa trên RAG, nó vẫn có những hạn chế khi đối mặt với các truy vấn phức tạp và điều phối tác nhân. Cần có những cải tiến thêm về khả năng hòa giải thông tin mâu thuẫn, tổng hợp kiến thức và sử dụng hiệu quả các công cụ bên ngoài để làm cho nó trở nên mạnh mẽ hơn đối với những loại ứng dụng này.

Định tuyến truy vấn và Phân rã truy vấn

Hiệu suất của mô hình trong các nhiệm vụ định tuyến truy vấn và phân rã truy vấn là hỗn hợp.

Đối với định tuyến truy vấn, mô hình có thể hiệu quả sử dụng các mô tả công cụ được cung cấp để xác định vector lưu trữ nào nên được sử dụng để trả lời các truy vấn cụ thể. Khi được hỏi một câu hỏi về thông tin liên quan đến Meta, mô hình đã chính xác xác định "Vector Tool" là nguồn tài nguyên thích hợp và cung cấp một phản hồi liên quan. Tương tự, khi được hỏi một câu hỏi cụ thể hơn về số lượng trò chuyện trò chuyện được điều khiển bởi tính cách do Meta giới thiệu, mô hình một lần nữa sử dụng vector lưu trữ chính xác để truy xuất thông tin chính xác.

Tuy nhiên, khi mô hình được phép chọn nhiều công cụ, hiệu suất của nó giảm sút. Đối với một truy vấn hỏi về các tính năng chính được giới thiệu bởi OpenAI và các công ty khác, mô hình đã sai lầm khi gán thông tin về Tesla và Apple, những công ty không được đề cập trong tài liệu gốc. Điều này cho thấy mô hình vẫn gặp khó khăn với việc định tuyến truy vấn phức tạp và có thể tạo ra thông tin sai lệch khi cố gắng kết hợp nhiều nguồn.

Mô hình hoạt động tốt hơn trong các nhiệm vụ phân rã truy vấn. Khi được đưa ra một truy vấn phức tạp về sự khác biệt giữa cách Meta và OpenAI được thảo luận, mô hình có thể chia nó thành ba câu hỏi phụ, truy xuất thông tin liên quan cho mỗi câu hỏi và sau đó tổng hợp một phản hồi cuối cùng. Các câu hỏi phụ được tạo ra là logic và câu trả lời tổng thể cung cấp một so sánh hợp lý giữa hai công ty.

Tóm lại, mô hình cho thấy tiềm năng trong các khả năng định tuyến truy vấn cơ bản, nhưng hiệu suất của nó suy giảm đối với các truy vấn phức tạp hơn yêu cầu kết hợp thông tin từ nhiều nguồn. Các khả năng phân rã truy vấn vững chắc hơn, cho thấy mô hình có thể hiệu quả chia nhỏ và giải quyết các câu hỏi phức tạp. Tuy nhiên, cần có sự tinh chỉnh thêm để khai thác triệt để tiềm năng của mô hình trong các trường hợp sử dụng thực tế.

Tác nhân và Các phép toán toán học

Các bài kiểm tra được thực hiện trên mô hình Retrieval-Augmented Generation (RAG) tiết lộ một số hiểu biết thú vị về khả năng và hạn chế của nó:

Truy vấn RAG đơn giản: Mô hình hoạt động tương đối tốt với các truy vấn RAG đơn giản, cung cấp các phản hồi chính xác dựa trên thông tin có sẵn trong tài liệu.
Truy vấn RAG phức tạp: Khi đối mặt với các truy vấn phức tạp hơn liên quan đến thông tin mâu thuẫn giữa các đoạn tài liệu khác nhau, mô hình gặp khó khăn và có xu hướng tạo ra thông tin sai lệch hoặc phân loại sai thông tin.
Định tuyến truy vấn: Mô hình thể hiện khả năng thực hiện định tuyến truy vấn, trong đó nó có thể chọn vector lưu trữ thích hợp để truy xuất thông tin liên quan dựa trên truy vấn. Điều này cho thấy mô hình có thể xử lý các nhiệm vụ yêu cầu hiểu biết về siêu dữ liệu và khả năng của các nguồn thông tin khác nhau.
Phân rã truy vấn: Mô hình có thể phân rã các truy vấn phức tạp thành các câu hỏi phụ và truy xuất thông tin để trả lời chúng riêng lẻ, sau đó kết hợp kết quả. Điều này cho thấy tiềm năng của mô hình trong việc xử lý các nhu cầu thông tin phức tạp.
Điều phối tác nhân: Khi được kiểm tra trong một khung điều phối tác nhân, mô hình thể hiện khả năng hạn chế. Nó gặp khó khăn trong việc sử dụng hiệu quả các công cụ được cung cấp, đặc biệt là đối với các nhiệm vụ phức tạp hơn liên quan đến các phép toán toán học. Mô hình dường như thích thực hiện các phép tính trên chính nó hơn là sử dụng các công cụ có sẵn.
Các phép toán toán học: Đáng chú ý, mô hình dường như có một sự hiểu biết tốt hơn về việc thực hiện các phép toán toán học đơn giản trên chính nó, mà không cần dựa vào các công cụ được cung cấp. Điều này gợi ý rằng mô hình có thể có một số khả năng lý luận toán học bẩm sinh.

Nói chung, kết quả cho thấy mô hình RAG có tiềm năng đối với một số ứng dụng, chẳng hạn như truy xuất thông tin đơn giản và định tuyến truy vấn. Tuy nhiên, hiệu suất của nó đối với các nhiệm vụ phức tạp hơn, bao gồm cả điều phối tác nhân và xử lý thông tin mâu thuẫn, vẫn còn hạn chế. Các cải tiến thêm về khả năng lý luận và tích hợp với các công cụ bên ngoài có thể cần thiết để khai thác triệt để khả năng của mô hình trong các trường hợp sử dụng thực tế.

Kết luận

Mô hình ngôn ngữ nhỏ Pi 3, mặc dù ấn tượng trong các tiêu chuẩn đánh giá, nhưng có một số hạn chế khi áp dụng vào các trường hợp sử dụng thực tế.

Đối với các nhiệm vụ truy xuất đơn giản, mô hình hoạt động tương đối tốt, có thể cung cấp các phản hồi chính xác bằng cách tóm gọn thông tin liên quan từ tài liệu. Tuy nhiên, khi đối mặt với các truy vấn phức tạp hơn liên quan đến thông tin mâu thuẫn giữa các đoạn tài liệu khác nhau, mô hình gặp khó khăn và có xu hướng tạo ra thông tin sai lệch, nhầm lẫn các tính năng được giới thiệu bởi các công ty khác nhau.

Khả năng định tuyến truy vấn của mô hình cho thấy tiềm năng, vì nó có thể chọn vector lưu trữ thích hợp dựa trên các mô tả được cung cấp. Điều này gợi ý rằng mô hình có thể hiểu được ngữ cảnh và mục đích của các nguồn thông tin khác nhau. Tuy nhiên, đối với các nhiệm vụ phân rã truy vấn phức tạp hơn, hiệu suất của mô hình vẫn còn hạn chế.

Khi đến điều phối tác nhân, mô hình thể hiện kết quả hỗn hợp. Trong khi nó có thể xử lý các truy vấn đơn giản mà không cần sử dụng công cụ, đối với các phép toán toán học phức tạp hơn, nó dường như không muốn sử dụng các công cụ được cung cấp và thay vào đó cố gắng thực hiện các phép tính chính nó, đôi k

Câu hỏi thường gặp

Sự khác biệt giữa Open AI và Meta về các công cụ AI là gì?

Những tính năng mới nào được OpenAI thêm vào ChatGPT?

Điều gì đã được đề cập về Meta?

Thông tin về Meta khác với thông tin về OpenAI như thế nào?

Tạo bạn gái AI của bạn

Xây dựng người bạn đồng hành lý tưởng của bạn với AI Girlfriend Builder của chúng tôi