UI-TARS của ByteDance có thể kiểm soát máy tính của bạn, vượt trội hơn GPT-4o và Claude

Một đại lý AI mới đã xuất hiện từ công ty mẹ của TikTok để kiểm soát máy tính của bạn và thực hiện các quy trình phức tạp.

Giống như Computer Use của Anthropic, UI-TARS mới của ByteDance hiểu các giao diện người dùng đồ họa (GUI), áp dụng lý luận và thực hiện hành động tự động, từng bước một.Được đào tạo trên khoảng 50B token và có sẵn ở các phiên bản 7B và 72B tham số, các đại lý PC/MacOS đạt được hiệu suất đỉnh cao (SOTA) trên hơn 10 tiêu chuẩn GUI về hiệu suất, nhận thức, định hướng và khả năng đại lý tổng thể, liên tục vượt qua GPT-4o của OpenAI, Claude và Gemini của Google.

“Thông qua quá trình đào tạo lặp đi lặp lại và điều chỉnh phản ánh, UI-TARS liên tục học hỏi từ những sai lầm của nó và thích nghi với các tình huống bất ngờ với sự can thiệp tối thiểu của con người,” các nhà nghiên cứu từ ByteDance và Đại học Tsinghua viết trong một bài báo nghiên cứu mới.

Nguồn: Arxiv

Cách UI-TARS giải thích suy nghĩ của nó

UI-TARS hoạt động trên các ứng dụng máy tính để bàn, di động và web, sử dụng đầu vào đa phương thức (văn bản, hình ảnh, tương tác) để hiểu các môi trường hình ảnh.

Giao diện người dùng của nó có hai tab – một bên trái hiển thị “suy nghĩ” từng bước của nó, và một tab lớn hơn bên phải nơi nó kéo lên các tệp, trang web và ứng dụng và tự động thực hiện hành động.

Ví dụ, trong một video demo được phát hành hôm nay, mô hình được yêu cầu “Tìm chuyến bay khứ hồi từ SEA đến NYC vào ngày 5 và trở lại vào ngày 10 tháng sau và lọc theo giá theo thứ tự tăng dần.”

Đáp lại, UI-TARS điều hướng đến trang web của Delta Airlines, điền vào các trường “từ” và “đến”, nhấp vào các ngày liên quan và sắp xếp và lọc theo giá, giải thích từng bước trong hộp suy nghĩ của nó trước khi thực hiện hành động.

Trong một kịch bản khác, nó được yêu cầu cài đặt tiện ích mở rộng autoDocstring trong VS Code. Đây là suy nghĩ từng bước của nó khi hoàn thành nhiệm vụ đó:

  • Nó đầu tiên báo cáo rằng “để tiến hành cài đặt tiện ích mở rộng autoDocstring trong VS Code, tôi trước tiên cần mở ứng dụng VS Code.”
  • Nhận ra rằng cửa sổ VS Code chưa hoàn toàn tải, mô hình lưu ý rằng “cần phải chờ ứng dụng hoàn tất khởi tạo trước khi tiếp tục cài đặt tiện ích mở rộng autoDocstring. Điều này đảm bảo rằng tất cả các chức năng cần thiết có sẵn cho các bước tiếp theo.”
  • Rồi nó giải thích rằng nó phải truy cập vào chế độ xem Tiện ích mở rộng trong VS Code, điều này có thể được thực hiện bằng cách nhấp vào một tab ở thanh bên trái.
  • Gặp một lỗi nhỏ, nó lý luận: “Nỗ lực trước đó để nhấp vào tab ‘Tiện ích mở rộng’ có thể chưa đủ chính xác, vì vậy tôi sẽ thử nhấp vào nó một lần nữa để đảm bảo chế độ xem Tiện ích mở rộng mở thành công.”
  • Ngay khi vào chế độ xem Tiện ích mở rộng, nó gõ vào ‘autoDocstring’ trước khi kết luận: “Vì quy trình cài đặt đã được khởi động, không cần hành động thêm nào tại thời điểm này. Tôi sẽ chờ cho đến khi cài đặt hoàn tất và xác nhận thành công khi quy trình hoàn tất.”
XEM THÊM:  3 cách để chuyển tên miền domain cũ sang mới của mã nguồn Wordpress dễ nhất

Vượt trội hơn các đối thủ

Trên nhiều tiêu chuẩn khác nhau, các nhà nghiên cứu báo cáo rằng UI-TARS liên tục vượt qua GPT-4o của OpenAI; Claude-3.5-Sonnet của Anthropic; Gemini-1.5-Pro và Gemini-2.0; bốn mô hình Qwen; và nhiều mô hình học thuật khác.

Chẳng hạn, trong VisualWebBench – đo lường khả năng của một mô hình trong việc định hướng các yếu tố web bao gồm đảm bảo chất lượng trang web và nhận dạng ký tự quang học – UI-TARS 72B đạt 82.8%, vượt qua GPT-4o (78.5%) và Claude 3.5 (78.2%).

Nó cũng làm tốt hơn nhiều trên các tiêu chuẩn WebSRC (hiểu nội dung ngữ nghĩa và bố cục trong các ngữ cảnh web) và ScreenQA-ngắn (hiểu các bố cục màn hình di động phức tạp và cấu trúc web). UI-TARS-7B đạt điểm dẫn đầu 93.6% trên WebSRC, trong khi UI-TARS-72B đạt 88.6% trên ScreenQA-ngắn, vượt qua Qwen, Gemini, Claude 3.5 và GPT-4o.

“Những kết quả này cho thấy khả năng nhận thức và hiểu biết vượt trội của UI-TARS trong môi trường web và di động,” các nhà nghiên cứu viết. “Khả năng nhận thức này tạo nền tảng cho các nhiệm vụ của đại lý, nơi việc hiểu biết chính xác về môi trường là rất quan trọng cho việc thực hiện nhiệm vụ và ra quyết định.”

UI-TARS cũng thể hiện kết quả ấn tượng trong ScreenSpot Pro và ScreenSpot v2, đánh giá khả năng của một mô hình trong việc hiểu và định vị các yếu tố trong GUI. Hơn nữa, các nhà nghiên cứu đã thử nghiệm khả năng của nó trong việc lập kế hoạch các hành động nhiều bước và các nhiệm vụ mức thấp trong các môi trường di động, và đánh giá nó trên OSWorld (đánh giá các nhiệm vụ máy tính mở) và AndroidWorld (đánh giá các đại lý tự động trên 116 nhiệm vụ lập trình trên 20 ứng dụng di động).

XEM THÊM:  Cách kết nối với VPS Linux Server có sử sử dụng SSH keys bằng dòng lệnh
Nguồn: Arxiv
Nguồn: Arxiv

Phía sau

Để giúp nó thực hiện các hành động từng bước và nhận diện những gì nó đang thấy, UI-TARS đã được đào tạo trên một tập dữ liệu lớn gồm các ảnh chụp màn hình mà phân tích siêu dữ liệu bao gồm mô tả và loại yếu tố, mô tả hình ảnh, hộp giới hạn (thông tin vị trí), chức năng yếu tố và văn bản từ nhiều trang web, ứng dụng và hệ điều hành khác nhau. Điều này cho phép mô hình cung cấp một mô tả chi tiết, toàn diện về một ảnh chụp màn hình, không chỉ nắm bắt các yếu tố mà còn cả mối quan hệ không gian và bố cục tổng thể.

Mô hình cũng sử dụng đánh chú thích chuyển trạng thái để xác định và mô tả sự khác biệt giữa hai ảnh chụp màn hình liên tiếp và xác định xem một hành động – chẳng hạn như nhấp chuột hoặc nhập bàn phím – đã diễn ra hay chưa. Trong khi đó, việc sử dụng đánh dấu tập hợp (SoM) cho phép nó phủ lên các dấu hiệu khác nhau (chữ cái, số) trên các khu vực cụ thể của một hình ảnh.

Mô hình được trang bị cả bộ nhớ ngắn hạn và dài hạn để xử lý các nhiệm vụ hiện tại đồng thời vẫn giữ lại các tương tác lịch sử để cải thiện việc ra quyết định sau này. Các nhà nghiên cứu đã đào tạo mô hình để thực hiện cả lý luận Hệ thống 1 (nhanh, tự động và trực giác) và Hệ thống 2 (chậm và cẩn thận). Điều này cho phép ra quyết định nhiều bước, “suy nghĩ phản ánh”, nhận diện cột mốc và sửa lỗi.

Các nhà nghiên cứu nhấn mạnh rằng điều quan trọng là mô hình có thể duy trì các mục tiêu nhất quán và tham gia vào quá trình thử nghiệm và sai sót để giả thuyết, kiểm tra và đánh giá các hành động tiềm năng trước khi hoàn thành một nhiệm vụ. Họ đã giới thiệu hai loại dữ liệu để hỗ trợ điều này: dữ liệu sửa lỗi và dữ liệu phản ánh sau. Đối với sửa lỗi, họ đã xác định các sai lầm và gán các hành động sửa chữa; đối với phản ánh sau, họ đã mô phỏng các bước phục hồi.

XEM THÊM:  Doanh nghiệp đang lo ngại những nguy cơ bảo mật nào nhất?

“Chiến lược này đảm bảo rằng đại lý không chỉ học hỏi để tránh lỗi mà còn thích nghi một cách linh hoạt khi chúng xảy ra,” các nhà nghiên cứu viết.

Rõ ràng, UI-TARS thể hiện những khả năng ấn tượng, và sẽ rất thú vị để xem các trường hợp sử dụng của nó phát triển trong không gian các đại lý AI ngày càng cạnh tranh. Như các nhà nghiên cứu đã lưu ý: “Nhìn về phía trước, trong khi các đại lý bản địa đại diện cho một bước tiến lớn, tương lai nằm trong việc tích hợp học tập chủ động và lâu dài, nơi các đại lý tự động thúc đẩy việc học của chính họ thông qua các tương tác liên tục trong thế giới thực.”

Các nhà nghiên cứu chỉ ra rằng Claude Computer Use “thực hiện tốt trong các nhiệm vụ dựa trên web nhưng gặp khó khăn đáng kể với các kịch bản di động, cho thấy khả năng vận hành GUI của Claude chưa được chuyển giao tốt đến lĩnh vực di động.”

Ngược lại, “UI-TARS thể hiện hiệu suất xuất sắc cả trong lĩnh vực trang web và di động.”

Những thông tin hàng ngày về các trường hợp sử dụng trong kinh doanh với VB Daily

Nếu bạn muốn gây ấn tượng với sếp của mình, VB Daily sẽ giúp bạn. Chúng tôi cung cấp cho bạn thông tin nội bộ về những gì các công ty đang làm với AI sinh ra, từ những thay đổi quy định đến triển khai thực tế, để bạn có thể chia sẻ những hiểu biết nhằm tối đa hóa ROI.

Bạn có thấy hữu ích không? Hãy cho chúng tôi +1 nhé

Đăng ký nhận bản tin từ Website TXL

Tìm kiếm tức thì các thông tin tại website: tranxuanloc.com

Mẹo tìm kiếm: "Từ khóa cần tìm kiếm" site:tranxuanloc.com để tìm được kết quả chính xác trên công cụ tìm kiếm của google

Trần Xuân Lộc Blog cung cấp dịch vụ

TOP ĐỐI TÁC CUNG CẤP DỊCH VỤ DU LỊCH TRỰC TUYẾN HÀNG ĐẦU

(Đặt phòng, đặt tour, đặt xe, đặt vé máy bay...Nhấn vào link logo để đặt dịch vụ với nhiều ưu đãi hấp dẫn)

Cảnh báo: Hiện nay có rất nhiều đơn vị SỬ DỤNG LẠI các THÔNG TIN NỘI DUNG ĐÀO TẠO của KHÓA HỌC SALE OTA TỪ OTAVN mà không đảm bảo chất lượng và hỗ trợ về sau. Các bạn muốn đăng ký học SALE OTA uy tín hãy liên hệ trực tiếp với OTA Việt Nam. OTAVN có xây dựng các hình thức đào tạo trực tiếp offline cho doanh nghiệp, đào tạo 1-1 từ xa và tự học online. Chúng tôi có 2 tên miền là: otavietnam.com và tranxuanloc.com (founder) có chia sẻ và đăng tải các thông tin liên quan về OTA/ Sale OTA/ Digital Marketing/ Thiết kế website... Với khách hàng/ đối tác đã sử dụng dịch vụ của OTAVN sẽ được HỖ TRỢ MIỄN PHÍ các vấn đề phát sinh, tư vấn giải đáp sau khi đã hoàn thành khóa học hoặc sau khi đã sử dụng dịch vụ trọn đời. Hotline:0934552325 (iMessage/ Zalo/ Whatsapp) - Email: [email protected]