Khai thác sức mạnh của các Tác nhân Web được cung cấp bởi AI: Tự động hóa Nhiệm vụ, Thu thập Dữ liệu và Tối ưu hóa Quy trình Làm việc

Khai thác sức mạnh của các tác nhân web được cung cấp bởi trí tuệ nhân tạo để tự động hóa các tác vụ, thu thập dữ liệu và đơn giản hóa các quy trình làm việc một cách dễ dàng. Khám phá cách xây dựng các tác nhân web phổ quát có thể tương tác với bất kỳ trang web nào, bất kể cấu trúc hoặc độ phức tạp của nó.

20 tháng 2, 2025

party-gif

Khám phá tiềm năng hấp dẫn của công nghệ tác nhân mới của OpenAI, có thể trực tiếp điều khiển máy tính cá nhân để tự động hóa một loạt các tác vụ. Bài đăng blog này khám phá các khả năng và hàm ý của bước tiến đột phá này trong lĩnh vực trí tuệ nhân tạo, nổi bật những lợi ích mà nó có thể mang lại cho cuộc sống và công việc hàng ngày của bạn.

Những thách thức trong việc xây dựng một Tác nhân Web

Xây dựng một tác nhân web có thể trực tiếp điều khiển thiết bị máy tính cá nhân để tự động hóa các tác vụ là một thách thức đáng kể hơn nhiều so với xây dựng một tác nhân gọi hàm truyền thống. Đây là lý do tại sao:

  • Độ phức tạp của các tác vụ: Thậm chí một tác vụ đơn giản như gửi email cũng yêu cầu nhiều bước đối với một tác nhân web - mở trang web Gmail, nhấp vào thanh tìm kiếm, gõ email, nhấp vào nút trả lời và cuối cùng là nhấp gửi. Mỗi bước trong số này đều có khả năng xảy ra lỗi, đòi hỏi khả năng ghi nhớ và lập luận mạnh mẽ hơn từ tác nhân.

  • Hiểu giao diện: Tác nhân cần hiểu chính xác giao diện người dùng, dù là bằng cách phân tích cấu trúc HTML/XML hay phân tích ảnh chụp màn hình bằng các kỹ thuật thị giác máy tính. Trích xuất thông tin liên quan và quyết định hành động tiếp theo là một thách thức phức tạp.

  • Độ chính xác định vị: Định vị chính xác các phần tử giao diện người dùng để tương tác, chẳng hạn như nút hoặc trường nhập, là rất quan trọng để tác nhân thành công. Các kỹ thuật như sử dụng OCR và kết hợp nhiều mô hình đã cho thấy tiềm năng, nhưng vẫn là một rào cản đáng kể.

  • Tốc độ và hiệu quả: Bản chất của loại tác nhân này, phải trải qua nhiều bước ngay cả với các tác vụ đơn giản, vốn kém hiệu quả hơn so với các tác nhân truyền thống. Cải thiện tốc độ và tỷ lệ hoàn thành tác vụ là một mục tiêu quan trọng.

  • Độ chính xác và độ tin cậy: Đảm bảo tác nhân có thể thực hiện các tác vụ một cách chính xác mà không bị mắc kẹt trong vòng lặp vô tận hoặc mắc sai lầm là rất quan trọng đối với các ứng dụng thực tế. Giải quyết các thách thức về độ chính xác và độ tin cậy này là một lĩnh vực tập trung chính.

Mặc dù có những thách thức này, những lợi ích tiềm năng của một tác nhân web có thể xử lý một loạt các tác vụ cá nhân và liên quan đến công việc là rất đáng kể. Nghiên cứu và phát triển liên tục trong các lĩnh vực như thị giác máy tính, mô hình ngôn ngữ và lập kế hoạch tác vụ đang giúp thúc đẩy tiến bộ trong lĩnh vực này.

Cách Tác nhân Web hiểu Giao diện người dùng

Có ba phương pháp chính mà các tác nhân web sử dụng để hiểu và tương tác với giao diện người dùng:

  1. Phương pháp dựa trên HTML/XML:

    • Tác nhân trích xuất cấu trúc HTML hoặc XML của trang web và sử dụng thông tin này để hiểu bố cục và các phần tử tương tác.
    • Tác nhân sau đó có thể sử dụng kiến thức này để định vị và tương tác với các phần tử giao diện người dùng cụ thể, chẳng hạn như trường nhập, nút và liên kết.
    • Phương pháp này tương đối chín muồi, nhưng nó có những hạn chế trong việc xử lý các trang web phức tạp hoặc cấu trúc kém.
  2. Phương pháp dựa trên thị giác:

    • Tác nhân sử dụng các mô hình thị giác máy tính để phân tích ảnh chụp màn hình hoặc hình ảnh của giao diện người dùng.
    • Điều này cho phép tác nhân xác định và định vị các phần tử giao diện người dùng, ngay cả khi không có dữ liệu HTML/XML sạch.
    • Các kỹ thuật như Saliency Mapping và Nhận dạng ký tự quang học (OCR) được sử dụng để xác định tọa độ chính xác của các phần tử tương tác.
    • Kết hợp các mô hình thị giác với các mô hình ngôn ngữ (ví dụ: GPT-4) có thể cải thiện độ chính xác của phương pháp này.
  3. Phương pháp lai:

    • Phương pháp này kết hợp những điểm mạnh của phương pháp dựa trên HTML/XML và phương pháp dựa trên thị giác.
    • Tác nhân sử dụng cả dữ liệu cấu trúc từ trang web và thông tin trực quan từ ảnh chụp màn hình để hiểu giao diện.
    • Phương pháp này có thể xử lý một loạt các cấu trúc trang web và cung cấp độ chính xác cao hơn trong việc tương tác với các phần tử giao diện người dùng.

Những thách thức chính trong việc xây dựng các tác nhân web hiệu quả bao gồm:

  1. Tốc độ: Bản chất đa bước của các tương tác web có thể khiến các tác nhân web chậm hơn so với các tác nhân gọi hàm truyền thống.
  2. Độ chính xác: Định vị và tương tác chính xác với các phần tử giao diện người dùng là một nhiệm vụ phức tạp yêu cầu khả năng thị giác máy tính và hiểu biết ngôn ngữ tiên tiến.
  3. Hoàn thành tác vụ: Duy trì ngữ cảnh và tránh các vòng lặp vô tận là quan trọng để đảm bảo các tác nhân web có thể hoàn thành thành công các tác vụ phức tạp.

Mặc dù có những thách thức này, các tác nhân web có tiềm năng mở khóa một loạt các trường hợp sử dụng, đặc biệt là trong lĩnh vực thu thập dữ liệu từ web, nơi khả năng tương tác với bất kỳ trang web nào có thể rất có giá trị. Các dự án như WebQL đang làm cho việc xây dựng những tác nhân web phổ dụng này trở nên dễ dàng hơn.

Sức mạnh của các Phương pháp đa phương thức

Trước tiên, một điều tôi nhanh chóng nhận ra là loại tác nhân web, di động hoặc để bàn này có thể trực tiếp điều khiển thiết bị máy tính cá nhân lại khó hơn nhiều so với các tác nhân gọi hàm thông thường mà chúng ta đang xây dựng. Hãy nói rằng chúng ta đang xây dựng một tác nhân quản lý hộp thư đến đơn giản có thể thực hiện các hành động như gửi email. Với một tác nhân gọi hàm thông thường, tất cả những gì bạn cần làm là gọi một hàm được định nghĩa trước có tên là "gửi email" và chuyển nội dung email, và nhiệm vụ sẽ hoàn thành. Không có nhiều khả năng xảy ra lỗi.

Tuy nhiên, nếu chúng ta cố gắng để một tác nhân web hoàn thành nhiệm vụ đơn giản như gửi email, nó sẽ cần phải trải qua ít nhất bốn bước khác nhau. Trước tiên, nó sẽ cần phải mở Gmail.com trong trình duyệt web, nhấp vào thanh tìm kiếm, tìm kiếm email cụ thể để trả lời, nhấp vào email đúng từ kết quả tìm kiếm, nhấp vào nút trả lời, gõ phản hồi và nhấp Gửi. Vì vậy, cần nhiều bước hơn để hoàn thành thậm chí một tác vụ cơ bản. Có nhiều khả năng xảy ra lỗi trong quá trình này, vì bất kỳ bước nào trong số đó tác nhân cũng có thể làm sai. Tác nhân cũng cần có khả năng ghi nhớ và lập luận mạnh hơn để nhớ những gì nó đã làm trước đó để tránh lặp lại cùng những lỗi đó.

Vì vậy, nói tóm lại, việc xây dựng nó khó hơn nhiều, nhưng nếu đạt được khả năng này, thì thật là rất thú vị và mở ra cơ hội cho nhiều thị trường lớn.

Hệ thống này thực sự hoạt động như thế nào? Có ba cách chính thường được sử dụng:

  1. Phương pháp dựa trên HTML hoặc XML: Chúng ta sẽ cố gắng trích xuất tệp HTML của mỗi trang web và cung cấp các phần tử DOM HTML đó cho tác nhân làm ngữ cảnh, để tác nhân có thể hiểu cấu trúc của trang web và sau đó quyết định những gì cần làm tiếp. Đây là phương pháp chín muồi nhất, nhưng nó có những hạn chế, chẳng hạn như không thể xử lý các tác vụ liên quan đến hình ảnh.

  2. Phương pháp dựa trên thị giác: Thay vì cung cấp cho tác nhân mã HTML gốc, chúng ta có thể chụp ảnh màn hình và gửi nó cho một mô hình đa phương tiện, nơi nó có thể hiểu, lập luận và lên kế hoạch cho bước tiếp theo. Phần khó nhất của phương pháp này là định vị chính xác phần tử giao diện người dùng cụ thể để tương tác.

  3. Phương pháp lai: Một số nhóm đã kết hợp những điểm mạnh của cả phương pháp dựa trên HTML/XML và phương pháp dựa trên thị giác, sử dụng sự kết hợp của các mô hình ngôn ngữ và nhận dạng ký tự quang học (OCR) để cải thiện độ chính xác.

Nói chung, có ba thách thức chính với các tác nhân web và máy tính để bàn này: tốc độ, độ chính xác và hoàn thành tác vụ. Tuy nhiên, bất chấp những hạn chế này, chúng ta vẫn có thể xây dựng các công cụ hữu ích với phương pháp tác nhân web này, đặc biệt là trong lĩnh vực thu thập dữ liệu từ web, nơi một API phổ dụng để truy cập nội dung bất kỳ trang web nào có thể cực kỳ có giá trị.

Một dự án đã cho thấy tiềm năng trong lĩnh vực này là WebQL, được thiết kế cụ thể để giải quyết vấn đề tìm và định vị các phần tử giao diện người dùng để tác nhân tương tác. Bằng cách sử dụng WebQL, chúng ta có thể tạo ra một trình thu thập thông tin sản phẩm thương mại điện tử phổ dụng có thể hoạt động trên các trang web khác nhau, chỉ cần thay đổi URL và một vài biến số.

Vượt qua các Vấn đề chính của Tác nhân Web

Việc phát triển các tác nhân web có thể trực tiếp điều khiển các thiết bị máy tính cá nhân để tự động hóa các tác vụ là một thách thức phức tạp, với một số vấn đề chính cần được giải quyết:

  1. Tốc độ: Bản chất của loại tác nhân này yêu cầu phải trải qua nhiều bước để hoàn thành thậm chí các tác vụ đơn giản, khiến chúng kém hiệu quả hơn so với các tác nhân gọi hàm truyền thống.

  2. Độ chính xác: Định vị và tương tác chính xác với các phần tử giao diện người dùng cụ thể trên các trang web và ứng dụng là một thách thức đáng kể. Các phương pháp như sử dụng cấu trúc HTML/XML, các mô hình đa phương tiện và sự kết hợp của các kỹ thuật như OCR và CLIP đã cho thấy sự tiến bộ, nhưng vẫn còn nhiều chỗ để cải thiện.

  3. Hoàn thành tác vụ: Các tác nhân web thường bị mắc kẹ

Câu hỏi thường gặp