Tác Nhân Sử Dụng Trình Duyệt: Convergence Proxy Vượt Trội OpenAI Operator

Sự Trỗi Dậy Của Các Tác Nhân Sử Dụng Trình Duyệt: Tại Sao Proxy Của Convergence Đánh Bại Operator Của OpenAI

Ngày 22 tháng 2 năm 2025 9:16 AM

Hình ảnh minh họa tác nhân AI duyệt webNguồn ảnh: VentureBeat qua ChatGPT

Một làn sóng mới của các tác nhân sử dụng trình duyệt được hỗ trợ bởi AI đang nổi lên, hứa hẹn sẽ thay đổi cách các doanh nghiệp tương tác với web. Các tác nhân này có thể tự động điều hướng các trang web, lấy thông tin và thậm chí hoàn thành các giao dịch – nhưng các thử nghiệm ban đầu cho thấy sự khác biệt đáng kể giữa lời hứa và hiệu suất.

Trong khi các ví dụ tiêu dùng do tác nhân sử dụng trình duyệt Operator mới của OpenAI cung cấp, như đặt pizza hoặc mua vé trò chơi, đã thu hút sự chú ý, câu hỏi đặt ra là các trường hợp sử dụng chính của nhà phát triển và doanh nghiệp là gì. “Điều mà chúng ta không biết là ứng dụng sát thủ sẽ là gì,” Sam Witteveen, đồng sáng lập của Red Dragon, một công ty phát triển các ứng dụng tác nhân AI, cho biết. “Tôi đoán nó sẽ là những việc tốn thời gian trên web mà bạn không thực sự thích.” Điều này bao gồm những việc như lên web và tìm kiếm giá rẻ nhất của một sản phẩm hoặc đặt chỗ ở khách sạn tốt nhất. Rất có thể nó sẽ được sử dụng kết hợp với các công cụ như Deep Research, nơi các công ty sau đó có thể thực hiện nghiên cứu phức tạp hơn cộng với việc thực hiện các tác vụ xung quanh web.

Các công ty cần đánh giá cẩn thận bối cảnh đang phát triển nhanh chóng khi những người chơi lâu đời và các công ty khởi nghiệp có những cách tiếp cận khác nhau để giải quyết thách thức duyệt web tự động.

Những Người Chơi Chính Trong Lĩnh Vực Tác Nhân Sử Dụng Trình Duyệt

Lĩnh vực này đã nhanh chóng trở nên đông đúc với cả các công ty công nghệ lớn và các công ty khởi nghiệp sáng tạo:

Operator và Proxy là những công cụ tiên tiến nhất, về mặt thân thiện với người tiêu dùng và sẵn sàng sử dụng ngay khi mở hộp. Nhiều công cụ khác dường như đang định vị mình nhiều hơn cho việc sử dụng của nhà phát triển hoặc doanh nghiệp. Ví dụ: Browser Use, một công ty khởi nghiệp Y-Combinator cho phép người dùng tùy chỉnh các mô hình được sử dụng với tác nhân. Điều này cho phép bạn kiểm soát nhiều hơn cách tác nhân hoạt động, bao gồm cả việc sử dụng một mô hình từ máy tính cục bộ của bạn. Nhưng chắc chắn là phức tạp hơn.

XEM THÊM:  Google AI Studio: Nền tảng AI toàn diện cho nhà phát triển

Những công cụ khác được liệt kê ở trên cung cấp các mức độ chức năng và tương tác khác nhau với tài nguyên máy tính cục bộ. Tôi thậm chí còn không quyết định kiểm tra UI-TARS của ByteDance bây giờ, vì nó yêu cầu quyền truy cập cấp thấp hơn vào các tính năng bảo mật và quyền riêng tư của máy tính của tôi (nếu tôi kiểm tra, tôi chắc chắn sẽ sử dụng một máy tính thứ cấp).

Kiểm Tra Cho Thấy Các Thách Thức Về Lập Luận

Vì vậy, dễ kiểm tra nhất là Operator của OpenAI và Proxy của Convergence. Trong thử nghiệm của chúng tôi, kết quả nhấn mạnh cách khả năng lập luận có thể quan trọng hơn các tính năng tự động hóa thô. Operator, đặc biệt, có nhiều lỗi hơn.

Ví dụ: tôi yêu cầu các tác nhân tìm và tóm tắt năm câu chuyện phổ biến nhất của VentureBeat. Đó là một nhiệm vụ mơ hồ, bởi vì VentureBeat không có phần “phổ biến nhất” tự thân. Operator đã gặp khó khăn với điều này. Đầu tiên, nó rơi vào một vòng lặp cuộn vô hạn trong khi tìm kiếm các câu chuyện “phổ biến nhất”, đòi hỏi sự can thiệp thủ công. Trong một nỗ lực khác, nó đã tìm thấy một bài báo ba năm tuổi có tiêu đề “Top năm câu chuyện của tuần.” Ngược lại, Proxy đã thể hiện khả năng lập luận tốt hơn bằng cách xác định năm câu chuyện hiển thị nhất trên trang chủ như một proxy thực tế cho sự phổ biến, và nó đã đưa ra các bản tóm tắt chính xác.

Sự khác biệt trở nên rõ ràng hơn trong các nhiệm vụ thực tế. Tôi yêu cầu các tác nhân đặt chỗ tại một nhà hàng lãng mạn vào buổi trưa ở Napa, California. Operator tiếp cận nhiệm vụ một cách tuyến tính — tìm một nhà hàng lãng mạn trước, sau đó kiểm tra tình trạng sẵn có vào buổi trưa. Khi không có bàn trống, nó đã đi vào ngõ cụt. Proxy cho thấy khả năng lập luận tinh vi hơn bằng cách bắt đầu với OpenTable để tìm các nhà hàng vừa lãng mạn vừa có sẵn vào thời gian mong muốn. Nó thậm chí còn quay lại với một nhà hàng được đánh giá cao hơn một chút.

Ngay cả những nhiệm vụ có vẻ đơn giản cũng tiết lộ những khác biệt quan trọng. Khi tìm kiếm “giá YubiKey 5C NFC” trên Amazon, Proxy nhanh chóng tìm thấy mặt hàng dễ dàng hơn Operator.

OpenAI đã không tiết lộ nhiều về các công nghệ mà họ sử dụng để đào tạo tác nhân Operator của mình, ngoài việc nói rằng họ đã đào tạo mô hình của mình về các tác vụ sử dụng trình duyệt. Tuy nhiên, Convergence đã cung cấp chi tiết hơn: Tác nhân của nó sử dụng một thứ gọi là Tìm kiếm Cây Tạo sinh để “tận dụng Mô hình Thế giới Web dự đoán trạng thái của web sau khi một hành động được đề xuất đã được thực hiện. Chúng được tạo ra một cách đệ quy để tạo ra một cây các tương lai có thể xảy ra được tìm kiếm để chọn hành động tối ưu tiếp theo, được xếp hạng bởi các mô hình giá trị của chúng tôi. Các mô hình Thế giới Web của chúng tôi cũng có thể được sử dụng để đào tạo các tác nhân trong các tình huống giả định mà không cần tạo ra nhiều dữ liệu tốn kém.” (Thêm ở đây).

XEM THÊM:  Doanh nghiệp đang lo ngại những nguy cơ bảo mật nào nhất?

Điểm Chuẩn Có Thể Vô Ích Hiện Tại

Trên giấy tờ, những công cụ này có vẻ phù hợp chặt chẽ. Proxy của Convergence đạt được 88% trên điểm chuẩn WebVoyager, đánh giá các tác nhân web trên 643 tác vụ thực tế trên 15 trang web phổ biến như Amazon và Booking.com. Operator của OpenAI đạt 87%, trong khi Browser-Use cho biết nó đạt 89% nhưng chỉ sau khi thay đổi nhẹ mã cơ sở WebVoyager, nó thừa nhận, “theo nhu cầu của chúng tôi”.

Tuy nhiên, những điểm số chuẩn này thực sự nên được coi là một hạt muối, vì chúng có thể bị gian lận. Bài kiểm tra thực sự đến từ việc sử dụng thực tế cho các trường hợp thực tế. Vẫn còn rất sớm, không gian đang thay đổi rất nhanh, và những sản phẩm này đang thay đổi gần như hàng ngày. Kết quả sẽ phụ thuộc nhiều hơn vào các công việc cụ thể bạn đang cố gắng thực hiện, và bạn có thể muốn thay vào đó dựa vào cảm giác bạn nhận được khi sử dụng các sản phẩm khác nhau.

Ý Nghĩa Doanh Nghiệp

Ý nghĩa đối với tự động hóa doanh nghiệp là rất lớn. Như Witteveen chỉ ra trong cuộc trò chuyện podcast video của chúng tôi về điều này, nơi chúng tôi đi sâu vào xu hướng sử dụng trình duyệt này, nhiều công ty hiện đang trả tiền cho trợ lý ảo – được vận hành bởi người thật – để xử lý các tác vụ nghiên cứu và thu thập dữ liệu web cơ bản. Các tác nhân sử dụng trình duyệt này có thể thay đổi đáng kể phương trình đó.

Witteveen lưu ý: “Nếu AI đảm nhận điều này, đó sẽ là một số trong những thành quả thấp nhất của việc mọi người mất việc. Nó sẽ xuất hiện trong một số loại điều này.”

Điều này có thể góp phần vào xu hướng tự động hóa quy trình bằng robot (RPA), nơi sử dụng trình duyệt được kéo vào như một công cụ khác để các công ty tự động hóa nhiều tác vụ hơn. Và như đã đề cập trước đó, các trường hợp sử dụng mạnh mẽ hơn sẽ là khi một tác nhân kết hợp sử dụng trình duyệt với các công cụ khác, bao gồm những thứ như Deep Research, nơi một tác nhân được điều khiển bởi LLM sử dụng một công cụ tìm kiếm cộng với sử dụng trình duyệt để thực hiện các công việc phức tạp hơn.

Động Lực Chi Phí Thúc Đẩy Đổi Mới

Một yếu tố quan trọng khác thúc đẩy sự phát triển nhanh chóng là sự sẵn có của các mô hình lý luận mã nguồn mở mạnh mẽ như DeepSeek-R1. Điều này cho phép các công ty xây dựng các tác nhân sử dụng trình duyệt này cạnh tranh hiệu quả với những người chơi lớn hơn bằng cách tận dụng các mô hình này thay vì xây dựng các mô hình của riêng họ.

XEM THÊM:  AI và No-Code: Công cụ đột phá cho kinh doanh SaaS

Áp lực về giá đã rõ ràng. Trong khi OpenAI yêu cầu đăng ký ChatGPT Pro hàng tháng trị giá $200 để truy cập Operator, Convergence cung cấp sử dụng miễn phí có giới hạn (tối đa năm lần sử dụng mỗi ngày) và gói không giới hạn $20/tháng. Động lực cạnh tranh này sẽ đẩy nhanh việc áp dụng doanh nghiệp, mặc dù các trường hợp sử dụng rõ ràng vẫn đang nổi lên.

Các Thách Thức Về Bảo Mật và Tích Hợp

Một số trở ngại vẫn còn trước khi áp dụng rộng rãi trong doanh nghiệp. Một số trang web chủ động chặn duyệt web tự động, trong khi những trang khác yêu cầu xác minh CAPTCHA. Trong khi OpenAI và Convergence có các công cụ có thể vượt qua CAPTCHA, chúng cho phép người dùng tiếp quản tác vụ để điền chúng – thay vì thực hiện chúng trực tiếp, vì toàn bộ mục đích của CAPTCHA là để đảm bảo rằng có một người ở đầu bên kia. Các công cụ như UI-TARS của ByteDance yêu cầu quyền truy cập hệ thống sâu, điều này làm tăng các lo ngại về bảo mật cho việc triển khai doanh nghiệp.

Ngoài ra, cách tiếp cận hợp tác trang web khác nhau. OpenAI đã làm việc với các đối tác cụ thể như Instacart, Priceline, DoorDash và Etsy, trong khi những người khác cố gắng điều hướng bất kỳ trang web nào. Sự không nhất quán này có thể ảnh hưởng đến độ tin cậy cho các trường hợp sử dụng doanh nghiệp. Và tất nhiên, bất cứ khi nào một tác nhân truy cập một trang web yêu cầu chi tiết đăng nhập, điều đó sẽ làm chậm mọi thứ — vì các tác nhân sẽ chuyển mọi thứ cho bạn để điền vào những chi tiết đó.

Nhìn Về Phía Trước

Đối với các doanh nghiệp đánh giá các công cụ này, trọng tâm nên là các trường hợp sử dụng cụ thể nơi tương tác web tự động có thể mang lại giá trị rõ ràng – cho dù trong nghiên cứu, dịch vụ khách hàng hay tự động hóa quy trình. Công nghệ đang tiến triển nhanh chóng, nhưng thành công sẽ phụ thuộc vào việc kết hợp các khả năng với nhu cầu kinh doanh cụ thể.

Khi không gian này phát triển, hãy mong đợi sẽ thấy nhiều tính năng tập trung vào doanh nghiệp hơn và có khả năng là các tác nhân chuyên dụng cho các ngành hoặc tác vụ cụ thể. Cuộc đua giữa những người chơi lâu đời và các công ty khởi nghiệp sáng tạo sẽ thúc đẩy cả sự tiến bộ kỹ thuật và giá cả cạnh tranh, khiến năm 2025 trở thành một năm quan trọng đối với việc áp dụng tác nhân sử dụng trình duyệt của doanh nghiệp.

Bạn có thấy hữu ích không? Hãy cho chúng tôi +1 nhé

Đăng ký nhận bản tin từ Website TXL

Tìm kiếm tức thì các thông tin tại website: tranxuanloc.com

Mẹo tìm kiếm: "Từ khóa cần tìm kiếm" site:tranxuanloc.com để tìm được kết quả chính xác trên công cụ tìm kiếm của google

Trần Xuân Lộc Blog cung cấp dịch vụ

TOP ĐỐI TÁC CUNG CẤP DỊCH VỤ DU LỊCH TRỰC TUYẾN HÀNG ĐẦU

(Đặt phòng, đặt tour, đặt xe, đặt vé máy bay...Nhấn vào link logo để đặt dịch vụ với nhiều ưu đãi hấp dẫn)

Cảnh báo: Hiện nay có rất nhiều đơn vị SỬ DỤNG LẠI các THÔNG TIN NỘI DUNG ĐÀO TẠO của KHÓA HỌC SALE OTA TỪ OTAVN mà không đảm bảo chất lượng và hỗ trợ về sau. Các bạn muốn đăng ký học SALE OTA uy tín hãy liên hệ trực tiếp với OTA Việt Nam. OTAVN có xây dựng các hình thức đào tạo trực tiếp offline cho doanh nghiệp, đào tạo 1-1 từ xa và tự học online. Chúng tôi có 2 tên miền là: otavietnam.com và tranxuanloc.com (founder) có chia sẻ và đăng tải các thông tin liên quan về OTA/ Sale OTA/ Digital Marketing/ Thiết kế website... Với khách hàng/ đối tác đã sử dụng dịch vụ của OTAVN sẽ được HỖ TRỢ MIỄN PHÍ các vấn đề phát sinh, tư vấn giải đáp sau khi đã hoàn thành khóa học hoặc sau khi đã sử dụng dịch vụ trọn đời. Hotline:0934552325 (iMessage/ Zalo/ Whatsapp) - Email: [email protected]