OpenAI Operator và Deep Research Agent: Cách mạng AI Agent?

Cách Mạng Hóa Phát Triển AI Agent: OpenAI Operator và Deep Research Agent

OpenAI vừa ra mắt hai AI agent đột phá mới: Operator Agent và Deep Research Agent. Vậy điều này có ý nghĩa gì đối với các nhà phát triển AI agent? Liệu OpenAI có đang cạnh tranh trực tiếp với họ không? Các framework và nhà phát triển AI agent có trở nên lỗi thời trong vài tháng tới không? Và chính xác thì điều này sẽ định hình lại thị trường AI agent như thế nào? Bài viết này sẽ trả lời những câu hỏi đó và hơn thế nữa, đồng thời cung cấp thông tin về cách chuẩn bị và giới thiệu các trường hợp sử dụng mới mà bạn có thể tạo khi các agent này có mặt trên API.

Tổng Quan Về AI Agent

Nếu bạn mới làm quen với lĩnh vực này, AI agent đơn giản là các LLM (mô hình ngôn ngữ lớn) có thể tương tác với môi trường của chúng. Điểm quan trọng cần biết là chúng có thể thực hiện các hành động một cách tự chủ, tức là không cần sự giám sát của con người, và hiện tại, chúng cũng có thể suy luận về các tác vụ. Khả năng suy luận này là một bước tiến lớn đối với các nhà phát triển AI agent.

Operator Agent: Mô Phỏng Hành Động Của Con Người

Operator là agent đầu tiên được OpenAI phát hành, mô phỏng các hành động của con người trong trình duyệt. Nó có thể cuộn, gõ, nhấp và điều hướng các trang web giống như con người. Quan trọng hơn, agent này dựa trên một mô hình hoàn toàn mới gọi là CUA (Computer Using Agent). Không giống như các mô hình GPT tiêu chuẩn chỉ được đào tạo để xuất văn bản, agent này được đào tạo để xuất các nhấp chuột và thao tác bàn phím, điều này làm cho nó trở nên mạnh mẽ trong trình duyệt.

Agent này không chỉ thực hiện các hành động trong trình duyệt mà còn suy luận về từng bước và quyết định hành động tiếp theo. Điều này cho phép nó tự động hóa các quy trình phức tạp.

Tuy nhiên, vẫn có một số hạn chế:

  • Độ chính xác chưa cao: Mặc dù độ chính xác cao hơn so với các dự án trước đây, nhưng vẫn có thể gặp lỗi. Ví dụ, nếu một modal (cửa sổ bật lên) xuất hiện trên trang web, agent có thể bị nhầm lẫn và không thể đóng nó.
  • Chi phí cao: Hiện tại, agent này chỉ khả dụng trên gói $200, cho thấy chi phí API có thể khá đắt đỏ. Tuy nhiên, nếu bạn tập trung vào những việc phù hợp, chi phí có thể không phải là vấn đề lớn.

Deep Research Agent: Nghiên Cứu Chuyên Sâu

Deep Research Agent là agent thứ hai được OpenAI phát hành, được đào tạo để thực hiện nghiên cứu toàn diện. Nó có thể tìm kiếm trên web, thu thập các nguồn cần thiết và biên soạn tất cả thông tin đó thành một báo cáo chi tiết. Điểm đột phá của agent này là nó được hỗ trợ bởi mô hình 03 mới.

Giống như Operator Agent, nó không chỉ tìm kiếm trên web và cung cấp kết quả mà còn suy luận về từng nguồn và quyết định thông tin nào cần tìm tiếp theo. Đây là một trong những công cụ hữu ích nhất mà OpenAI từng phát hành, vì nó biên soạn những thông tin chi tiết mới mẻ thay vì chỉ đưa ra những thông tin trung bình trên internet.

Các Trường Hợp Sử Dụng Tốt Nhất Cho Các Agent Này

Operator Agent: Tự Động Hóa Quy Trình Nội Bộ

Trường hợp sử dụng tốt nhất cho Operator Agent là tự động hóa các quy trình dựa trên phần mềm nội bộ. Đặc biệt là với các doanh nghiệp, có rất nhiều công cụ phần mềm nội bộ được sử dụng cho các quy trình của họ. Trước đây, chúng ta phải sử dụng các nền tảng như toGuru, nền tảng này về cơ bản là thiết kế ngược phần mềm nội bộ. Nhưng giờ đây, bạn có thể sử dụng Operator Agent để mở trình duyệt và điều hướng các hệ thống nội bộ. Điều này có thể tiết kiệm rất nhiều chi phí, như trường hợp một khách hàng đã chi 2 triệu đô la để di chuyển dữ liệu từ một hệ thống nội bộ sang hệ thống khác, quy trình này giờ có thể được tự động hóa với chi phí thấp hơn nhiều.

Deep Research Agent: Nghiên Cứu Toàn Diện và Phân Tích Dữ Liệu

Các trường hợp sử dụng chính cho Deep Research Agent liên quan đến nghiên cứu, chẳng hạn như nghiên cứu thị trường, nghiên cứu khách hàng tiềm năng, nghiên cứu pháp lý, nghiên cứu khoa học hoặc thậm chí phân tích tài liệu nội bộ. OpenAI cũng đã đề cập rằng trong tương lai, bạn sẽ có thể sử dụng Deep Research với dữ liệu nội bộ riêng tư của mình, điều này có thể rất hữu ích cho các doanh nghiệp và khách hàng phụ thuộc nhiều vào dữ liệu, chẳng hạn như các cơ quan marketing.

XEM THÊM:  Công ty bảo mật Trung Quốc: 'Microsoft sao chép ý tưởng của chúng tôi'

Với Deep Research Agent, các trường hợp sử dụng có giá trị nhất sẽ là những trường hợp không chỉ thực hiện nghiên cứu mà còn thực hiện các hành động dựa trên nghiên cứu đó. Ví dụ: tạo một agent có thể thực hiện nghiên cứu về thị trường Bitcoin và sau đó thậm chí có thể đầu tư vào Bitcoin bằng tài khoản Binance của bạn.

Hỏi & Đáp Về OpenAI Agents

Dưới đây là những câu hỏi thường gặp nhất từ cộng đồng về hai agent này:

Chúng Ta Có Cần Các Nhà Phát Triển AI Agent Nữa Không?

Câu trả lời là có. Chúng ta cần các nhà phát triển AI agent hơn bao giờ hết. Việc OpenAI phát hành hai agent này chỉ đơn giản là đẩy nhanh việc áp dụng các agent trong ngành. Các agent này có thể hoạt động tốt cho các tác vụ đơn giản, nhưng khi bạn có các công cụ nội bộ phức tạp, bạn phải đào tạo agent để sử dụng phần mềm nội bộ, giống như bạn đào tạo một người thực. Bằng cách phát hành các agent này, OpenAI đã giúp công việc của chúng ta dễ dàng hơn, vì giờ đây, các khả năng cần thiết để làm như vậy đã có sẵn.

Liệu Điều Này Có Làm Cho Các Framework AI Agent Trở Nên Lỗi Thời Không?

Câu trả lời là nó sẽ làm cho một số framework trở nên dư thừa, những framework không có kế hoạch cho các mô hình AI ngày càng tốt hơn. Nhiều framework ngày nay có các prompt cụ thể trong mã nội bộ của chúng, về cơ bản là bảo agent suy nghĩ từng bước hoặc agent có quyền truy cập vào các công cụ như vậy hoặc agent có thể sử dụng trình duyệt, v.v. Giờ đây, điều này sẽ trở nên hoàn toàn lỗi thời, vì các mô hình hiện có thể suy luận. Bạn không còn phải prompt một mô hình suy luận để nó suy nghĩ về các bước cụ thể mà nó cần thực hiện.

Điều Này Sẽ Hoạt Động Như Thế Nào Với Các Hệ Thống Multi-Agent?

Tôi tin rằng điều này sẽ mang tính chuyển đổi đối với các framework multi-agent đã lên kế hoạch cho các mô hình này ngày càng tốt hơn và cho các khả năng này xuất hiện trong tương lai. Về cơ bản, các agent của bạn sẽ có thể tạo ra các agent khác. Ví dụ: bạn có thể có 20 Operator Agent duyệt web cho bạn mọi lúc. Một agent có thể trước tiên tìm kiếm trên Google các công ty liên quan nhất trong ngành của bạn mà bạn muốn liên hệ và sau đó có thể tạo ra 20 agent khác để duyệt qua tất cả kết quả tìm kiếm và thực sự liên hệ với những khách hàng tiềm năng đó.

Điều Này Sẽ Tác Động Đến Thị Trường AI Agent Như Thế Nào?

Tôi tin rằng điều này sẽ tác động đến thị trường AI agent theo cách tương tự như nó sẽ tác động đến framework AI agent. Nhiều nền tảng không có kế hoạch cho AI ngày càng tốt hơn cũng sẽ trở nên dư thừa. Họ có thể gặp khó khăn trong việc tích hợp các khả năng mới này vào nền tảng của họ hoặc thậm chí có thể phải tái cấu trúc hoàn toàn. Bạn sẽ không còn có thể chỉ đơn giản là bỏ qua các AI agent khi các công ty như OpenAI đang tích cực phát hành các khả năng agentic mới.

Bạn Nghĩ API Sẽ Được Triển Khai Như Thế Nào?

Đối với Operator Agent, tôi tin rằng nó có thể là một API riêng biệt, giống như chúng ta đã thấy với API thời gian thực, hoặc nó có thể được tích hợp vào Assistance. Đối với Deep Research Agent, tôi tin rằng cách duy nhất để tích hợp nó là thông qua API Assistance. Nếu chúng ta nhìn vào ChatGPT ngay bây giờ, nó thực sự sử dụng Deep Research như một công cụ khác. Vì vậy, như bạn có thể thấy trong cuộc trò chuyện này, tôi đã hỏi GPT-40 liệu nó có công cụ Deep Research không và nó nói có, và sau đó thậm chí cung cấp cho tôi các tham số chính xác mà công cụ này có. Vì vậy, nó được gọi là công cụ khởi động nghiên cứu và nó có tiêu đề, prompt và các tham số bổ sung khác. Tất nhiên, cách duy nhất để OpenAI tích hợp các công cụ là thông qua Assistance, vì Assistance là API duy nhất của OpenAI nơi một số chức năng đang chạy trên backend của họ. Tôi tin rằng trong tương lai, nó có thể chỉ là một công cụ khác trong Assistance, giống như chúng ta hiện có tìm kiếm tệp, trình thông dịch mã và sau đó cũng sẽ có deep research.

XEM THÊM:  Ansys: Mô phỏng thu hẹp khoảng cách với thực tế, kiến tạo thế giới bền vững

Làm Thế Nào Chúng Ta Có Thể Chuẩn Bị Cho Việc Phát Hành API?

Đây thực sự là điều rất quan trọng, vì vậy tôi đã tạo một slide riêng cho nó và tôi có ba gợi ý. Gợi ý đầu tiên là bắt đầu xây dựng ngay bây giờ. Đừng đợi cho đến khi API có sẵn. Vẫn còn rất nhiều thứ mà bạn có thể tự động hóa ở hầu hết mọi doanh nghiệp trên toàn thế giới, đến nỗi nếu bạn chỉ cần bắt đầu tham gia vào việc này ngay bây giờ, bạn vẫn sẽ có thể tìm thấy vô số cách để sử dụng ngay cả các mô hình đã được OpenAI phát hành trước đó. Ngoài ra, bạn không nên xây dựng dựa trên các giới hạn. Đảm bảo rằng bạn không xây dựng cho một cái gì đó mà OpenAI có thể phát hành trong tương lai, vì điều này rõ ràng sẽ làm cho hệ thống của bạn trở nên lỗi thời. Ví dụ, vào năm 2023, chúng tôi có rất nhiều khách hàng muốn đưa tất cả dữ liệu của họ vào một prompt duy nhất và rõ ràng là khi các cửa sổ ngữ cảnh bật lên như 32k, thì điều đó đơn giản là không thể. Vì vậy, chúng tôi đã từng xây dựng các kiến trúc phức tạp đó và sau đó 2 tháng sau, về cơ bản OpenAI phát hành các mô hình cửa sổ ngữ cảnh 128k và toàn bộ hệ thống này trở nên dư thừa. Vì vậy, hãy cố gắng tránh các kịch bản như thế này. Đừng xây dựng dựa trên các giới hạn của các mô hình này. Đừng dựa vào sự hỗ trợ, hãy lên kế hoạch cho các mô hình này ngày càng tốt hơn và tốt hơn. Cuối cùng, hãy tập trung vào ROI. Đừng tập trung vào các trường hợp sử dụng. Đừng chỉ sử dụng Operator Agent hoặc Deep Research chỉ vì mục đích sử dụng các agent này. Hãy tự động hóa những gì mang lại ROI lớn nhất cho doanh nghiệp. Đừng tự động hóa một cái gì đó chỉ vì mục đích sử dụng các công nghệ mới.

Bạn Nghĩ Nó Có Thể Phát Triển Như Thế Nào Trong Tương Lai?

Với Operator Agent, tôi tin rằng nó có thể phát triển thành agent này sử dụng máy tính của bạn thông qua ứng dụng ChatGPT và tôi tin rằng đây là lý do chính xác tại sao OpenAI xây dựng ứng dụng này ngay từ đầu. Sau này, nó sẽ có thể kiểm soát máy tính của bạn và sử dụng các công cụ khác, chẳng hạn như Premier Pro hoặc Photoshop, những công cụ chỉ có thể chạy trên máy của bạn và không có sẵn trong trình duyệt. Cuối cùng, tôi tin rằng OpenAI chắc chắn có nhiều agent hơn để ra mắt, vì vậy hãy cho tôi biết trong phần bình luận, bạn nghĩ agent tiếp theo sẽ là gì.

Ví Dụ Về Cách Sử Dụng Deep Research và Operator Agent

Bây giờ, hãy xem cách bạn có thể sử dụng Deep Research và Operator Agent với tư cách là một nhà phát triển agent AI:

Operator Agent: Thiết Lập Cổng Thông Tin Khách Hàng

Chúng ta sẽ thiết lập một cổng thông tin khách hàng cho khách hàng của mình. Hiện tại, chúng ta thực hiện điều này thủ công vì cổng thông tin khách hàng của chúng ta được lưu trữ trong Notion và Notion không có API có sẵn cho phép chúng ta thiết lập mọi thứ ngay tại đây. Chúng ta sẽ gửi một prompt đến Operator Agent và mô tả tất cả các bước mà nó cần thực hiện. Trước tiên, nó cần đăng nhập vào Notion bằng tên người dùng và mật khẩu của tôi (đừng lo, tôi sẽ thay đổi sau) và sau đó nó cũng cần thay thế tên trong cổng thông tin khách hàng và nó cũng cần thiết lập một tự động hóa đơn giản sẽ cảnh báo người quản lý dự án bất cứ khi nào khách hàng đăng một mục hành động.

Operator Agent điều hướng đến cổng thông tin khách hàng Notion của chúng ta bằng cách chèn liên kết ở trên cùng. Có vẻ như nó đã đăng nhập vào Notion của tôi vì tôi đã thử nghiệm nó trước đó. Có vẻ như OpenAI thực sự giữ lại thông tin đăng nhập. Bây giờ nó đang tạo tự động hóa. Nó nhấp vào biểu tượng rất nhỏ cho tia sét, biểu tượng này mở ra các tự động hóa trong Notion. Nó thực sự có cùng kích thước với chuột, điều mà đơn giản là không thể thực hiện được trước đây với các mô hình GPT bằng cách sử dụng bất kỳ repus nguồn mở nào khác về cơ bản bắt chước Operator Agent. Bây giờ nó đang đặt thông báo cho chính mình. Có vẻ như nó đã bỏ lỡ tên của tôi vì cửa sổ bật lên đã đóng, nhưng lần thứ hai nó đã làm thành công. Bây giờ nó cố gắng bật nó lên, nhưng nó thực sự nhìn thấy mũi tên, vì vậy đây là phần thú vị về Operator Agent, đó là nó hoàn toàn tự chủ. Có nghĩa là nó thấy mũi tên và sau đó nó tự sửa theo đó. Bây giờ, tự động hóa và cổng thông tin khách hàng đã được thiết lập đầy đủ và tôi nhận được thông báo trong cuộc trò chuyện rằng quá trình đã hoàn tất. Điều này rất mạnh mẽ, không phải vì agent có thể điều khiển trình duyệt của bạn, mà vì nó hoàn toàn tự chủ, vì vậy bất cứ khi nào có sự cố xảy ra trong quá trình, nó có thể suy nghĩ và tự sửa theo đó. Điều đó có nghĩa là giờ đây bạn có thể tự động hóa các quy trình cực kỳ phức tạp, các quy trình có thể diễn ra theo bất kỳ hướng nào.

XEM THÊM:  Google Gemini Deep Research: Nghiên cứu sâu và tạo báo cáo hiệu quả

Deep Research Agent: Nghiên Cứu Thị Trường Bitcoin

Chúng ta hãy quay lại ChatGPT và nhập prompt sau: Vui lòng hoàn thành một nghiên cứu toàn diện về thị trường Bitcoin. Hãy bật Deep Research và gửi prompt này.

Nó cung cấp cho tôi một số câu hỏi mà tôi cần trả lời trước khi nó có thể tiến hành, điều mà tôi nghĩ là một ý tưởng thực sự hay. Không có ý nghĩa gì khi dành 10 giây cho prompt của bạn khi agent sẽ chạy trong nửa giờ, bởi vì nếu bạn không cung cấp tất cả các yêu cầu cần thiết, điều đó có nghĩa là bạn sẽ thực sự lãng phí nhiều thời gian hơn là dành thêm một hoặc hai phút để viết một prompt hiệu quả. Vì vậy, hãy để tôi nói rằng tôi muốn biết liệu tôi có nên đầu tư vào Bitcoin hay không.

Sau khoảng 10 phút, nó đã sử dụng hơn 30 nguồn và đưa ra báo cáo dài dòng về Triển vọng Thị trường Bitcoin. Như bạn có thể thấy, nó chứa rất nhiều văn bản. Tôi mất 10 hoặc 20 giây chỉ để cuộn qua nó và tôi cho rằng tôi sẽ mất ít nhất 10 phút để đọc, nhưng sức mạnh của việc sử dụng Deep Research Agent cho nhà phát triển AI Agent là nó không mất 10 phút để một mô hình ngôn ngữ lớn khác đọc báo cáo này. Vì vậy, những gì chúng ta có thể làm tiếp theo là chúng ta thực sự có thể gắn thẻ một trong những agent khác mà tôi đã tạo. Như bạn có thể thấy ngay tại đây, tôi có agent phân tích tiền điện tử GPT tùy chỉnh này và sau đó chúng ta có thể yêu cầu nó đầu tư vào Bitcoin dựa trên báo cáo này.

Agent phân tích tiền điện tử bắt đầu một hành động kiểm tra giá dựa trên báo cáo này. Bây giờ nó cung cấp cho tôi giá hiện tại, phạm vi 24 giờ và các số liệu khác. Bạn chỉ có thể tưởng tượng điều này mạnh mẽ như thế nào, bởi vì giờ đây agent có thể đầu tư thêm cho tôi vào Thị trường Bitcoin dựa trên nghiên cứu toàn diện này bao gồm hơn 30 nguồn.

Kết Luận

OpenAI đã giới thiệu một cách tiếp cận mới để phát triển AI agent với việc ra mắt Operator Agent và Deep Research Agent. Những công cụ này mở ra những cơ hội mới để tự động hóa và nghiên cứu chuyên sâu, đồng thời đặt ra những câu hỏi quan trọng về tương lai của ngành AI agent. Bằng cách hiểu rõ các khả năng và hạn chế của các agent này, cũng như chuẩn bị cho việc phát hành API, các nhà phát triển có thể tận dụng tối đa tiềm năng của chúng.

Bạn có thấy hữu ích không? Hãy cho chúng tôi +1 nhé

Đăng ký nhận bản tin từ Website TXL

Tìm kiếm tức thì các thông tin tại website: tranxuanloc.com

Mẹo tìm kiếm: "Từ khóa cần tìm kiếm" site:tranxuanloc.com để tìm được kết quả chính xác trên công cụ tìm kiếm của google

Trần Xuân Lộc Blog cung cấp dịch vụ

TOP ĐỐI TÁC CUNG CẤP DỊCH VỤ DU LỊCH TRỰC TUYẾN HÀNG ĐẦU

(Đặt phòng, đặt tour, đặt xe, đặt vé máy bay...Nhấn vào link logo để đặt dịch vụ với nhiều ưu đãi hấp dẫn)

Cảnh báo: Hiện nay có rất nhiều đơn vị SỬ DỤNG LẠI các THÔNG TIN NỘI DUNG ĐÀO TẠO của KHÓA HỌC SALE OTA TỪ OTAVN mà không đảm bảo chất lượng và hỗ trợ về sau. Các bạn muốn đăng ký học SALE OTA uy tín hãy liên hệ trực tiếp với OTA Việt Nam. OTAVN có xây dựng các hình thức đào tạo trực tiếp offline cho doanh nghiệp, đào tạo 1-1 từ xa và tự học online. Chúng tôi có 2 tên miền là: otavietnam.com và tranxuanloc.com (founder) có chia sẻ và đăng tải các thông tin liên quan về OTA/ Sale OTA/ Digital Marketing/ Thiết kế website... Với khách hàng/ đối tác đã sử dụng dịch vụ của OTAVN sẽ được HỖ TRỢ MIỄN PHÍ các vấn đề phát sinh, tư vấn giải đáp sau khi đã hoàn thành khóa học hoặc sau khi đã sử dụng dịch vụ trọn đời. Hotline:0934552325 (iMessage/ Zalo/ Whatsapp) - Email: [email protected]