LangChain: Kiểm Chứng Rằng AI Agent Chưa Đạt Đến Trình Độ Con Người Vì Quá Tải Công Cụ

Trong bối cảnh AI Agent ngày càng phát triển, các tổ chức phải đối mặt với câu hỏi liệu một Agent duy nhất có đủ hay không, hay nên đầu tư vào việc xây dựng một mạng lưới Multi-Agent rộng lớn hơn. Công ty LangChain đã tiến hành các thử nghiệm để tìm câu trả lời cho vấn đề này.

Giới Thiệu về LangChain và Thử Nghiệm AI Agent

Trong bối cảnh AI agents ngày càng phát triển, các tổ chức phải đối mặt với câu hỏi liệu một agent duy nhất có đủ hay không, hay nên đầu tư vào việc xây dựng một mạng lưới multi-agent rộng lớn hơn. Công ty LangChain đã tiến hành các thử nghiệm để tìm câu trả lời cho vấn đề này.

Mục Tiêu và Phương Pháp Thử Nghiệm của LangChain

LangChain đã thực hiện một loạt các thử nghiệm với một ReAct agent duy nhất để đánh giá hiệu suất của nó. Câu hỏi chính mà LangChain muốn trả lời là: “Khi nào thì một ReAct agent duy nhất trở nên quá tải với các hướng dẫn và công cụ, và sau đó hiệu suất bắt đầu giảm?” Họ đã sử dụng ReAct agent framework vì nó là một trong những kiến trúc agent cơ bản nhất.

Mặc dù việc đánh giá hiệu suất agent có thể dẫn đến kết quả sai lệch, LangChain đã giới hạn thử nghiệm ở hai nhiệm vụ dễ định lượng: trả lời câu hỏi và lên lịch cuộc họp. Mục tiêu là đánh giá một agent thực tế mà họ đang sử dụng nội bộ, cụ thể là trợ lý email của họ.

Các Tham Số Thử Nghiệm

LangChain chủ yếu sử dụng các ReAct agents được xây dựng sẵn thông qua nền tảng LangGraph của mình. Các agent này sử dụng các large language models (LLMs) để gọi công cụ, và chúng trở thành một phần của bài kiểm tra benchmark. Các LLMs bao gồm Claude 3.5 Sonnet, Llama-3.3-70B và bộ ba mô hình từ OpenAI: GPT-4o, o1 và o3-mini.

Công ty chia nhỏ thử nghiệm để đánh giá tốt hơn hiệu suất của trợ lý email trong hai nhiệm vụ. Đầu tiên, họ xem xét khả năng hỗ trợ khách hàng của trợ lý email, tức là cách agent chấp nhận email từ khách hàng và trả lời bằng một câu trả lời. LangChain đánh giá quỹ đạo gọi công cụ, tức là các công cụ mà agent sử dụng. Nếu agent tuân theo đúng thứ tự, nó sẽ vượt qua bài kiểm tra. Tiếp theo, các nhà nghiên cứu yêu cầu trợ lý trả lời email và sử dụng LLM để đánh giá hiệu suất của nó.

Đối với nhiệm vụ thứ hai, lên lịch cuộc họp, LangChain tập trung vào khả năng tuân theo hướng dẫn của agent.

“Nói cách khác, agent cần nhớ các hướng dẫn cụ thể được cung cấp, chẳng hạn như chính xác khi nào nó nên lên lịch các cuộc họp với các bên khác nhau,” các nhà nghiên cứu viết.

Quá Tải Agent: Thử Nghiệm và Kết Quả

Sau khi xác định các tham số, LangChain bắt đầu gây áp lực và làm quá tải agent trợ lý email. Họ đặt 30 nhiệm vụ cho mỗi loại: lên lịch cuộc họp và hỗ trợ khách hàng. Các nhiệm vụ này được chạy ba lần (tổng cộng 90 lần chạy). Các nhà nghiên cứu đã tạo ra một agent lên lịch cuộc họp và một agent hỗ trợ khách hàng để đánh giá tốt hơn các nhiệm vụ.

“Agent lên lịch cuộc họp chỉ có quyền truy cập vào miền lên lịch cuộc họp, và agent hỗ trợ khách hàng chỉ có quyền truy cập vào miền hỗ trợ khách hàng,” LangChain giải thích.

Sau đó, các nhà nghiên cứu thêm nhiều nhiệm vụ và công cụ miền hơn vào các agent để tăng số lượng trách nhiệm. Các trách nhiệm này có thể từ nhân sự, đến đảm bảo chất lượng kỹ thuật, đến pháp lý và tuân thủ, và một loạt các lĩnh vực khác.

Sự Suy Giảm Hướng Dẫn của Single-Agent

Sau khi chạy các đánh giá, LangChain nhận thấy rằng các single agents thường trở nên quá tải khi được yêu cầu làm quá nhiều việc. Họ bắt đầu quên gọi các công cụ hoặc không thể phản hồi các nhiệm vụ khi được cung cấp nhiều hướng dẫn và ngữ cảnh hơn.

LangChain phát hiện ra rằng các agent lên lịch cuộc họp sử dụng GPT-4o “hoạt động kém hơn Claude-3.5-sonnet, o1 và o3 trên các kích thước ngữ cảnh khác nhau, và hiệu suất giảm mạnh hơn so với các mô hình khác khi ngữ cảnh lớn hơn được cung cấp.” Hiệu suất của các agent lên lịch cuộc họp GPT-4o giảm xuống 2% khi các miền tăng lên ít nhất là bảy.

Các mô hình khác cũng không hoạt động tốt hơn nhiều. Llama-3.3-70B quên gọi công cụ send_email, “vì vậy nó đã thất bại trong mọi trường hợp thử nghiệm.”

Chỉ Claude-3.5-sonnet, o1 và o3-mini nhớ gọi công cụ, nhưng Claude-3.5-sonnet hoạt động kém hơn hai mô hình OpenAI còn lại. Tuy nhiên, hiệu suất của o3-mini giảm khi các miền không liên quan được thêm vào hướng dẫn lên lịch.

Agent hỗ trợ khách hàng có thể gọi nhiều công cụ hơn, nhưng đối với thử nghiệm này, LangChain cho biết Claude-3.5-mini hoạt động tốt như o3-mini và o1. Nó cũng cho thấy sự sụt giảm hiệu suất nông hơn khi có nhiều miền hơn được thêm vào. Tuy nhiên, khi cửa sổ ngữ cảnh mở rộng, mô hình Claude hoạt động kém hơn.

GPT-4o cũng hoạt động kém nhất trong số các mô hình được thử nghiệm.

“Chúng tôi thấy rằng khi có nhiều ngữ cảnh hơn được cung cấp, việc tuân theo hướng dẫn trở nên tồi tệ hơn. Một số nhiệm vụ của chúng tôi được thiết kế để tuân theo các hướng dẫn cụ thể (ví dụ: không thực hiện một hành động nhất định cho khách hàng ở EU),” LangChain lưu ý. “Chúng tôi thấy rằng các hướng dẫn này sẽ được các agent tuân theo thành công với ít miền hơn, nhưng khi số lượng miền tăng lên, các hướng dẫn này thường bị quên, và các nhiệm vụ sau đó không thành công.”

Kết Luận và Hướng Nghiên Cứu Tiếp Theo

LangChain đang khám phá cách đánh giá kiến trúc multi-agent bằng phương pháp quá tải miền tương tự. Họ cũng đang đầu tư vào hiệu suất của các agent, vì họ đã giới thiệu khái niệm về “ambient agents,” hoặc các agent chạy trong nền và được kích hoạt bởi các sự kiện cụ thể. Các thử nghiệm này có thể giúp dễ dàng hơn trong việc đảm bảo hiệu suất của agent.

Tóm Tắt và Suy Ngẫm về Tương Lai của AI Agents

Nghiên cứu của LangChain chỉ ra rằng, mặc dù AI agents có tiềm năng lớn, nhưng chúng vẫn chưa thể đạt được trình độ của con người khi đối mặt với sự phức tạp và khối lượng công việc lớn. Việc quá tải với các công cụ và hướng dẫn có thể dẫn đến sự suy giảm hiệu suất đáng kể. Điều này đặc biệt đúng với các single agents, những agent phải đảm nhận quá nhiều trách nhiệm khác nhau.

Tuy nhiên, nghiên cứu này cũng mở ra những hướng đi mới cho việc phát triển multi-agent systems, nơi các agent khác nhau có thể hợp tác và chia sẻ công việc để đạt được hiệu quả cao hơn. Việc phân chia công việc và trách nhiệm một cách hợp lý có thể giúp giảm thiểu tình trạng quá tải và cải thiện khả năng tuân thủ hướng dẫn của các agent.

Trong tương lai, chúng ta có thể mong đợi sự phát triển của các kiến trúc agent thông minh hơn, có khả năng tự động điều chỉnh và tối ưu hóa hiệu suất của mình dựa trên khối lượng công việc và ngữ cảnh. Điều này sẽ giúp AI agents trở nên đáng tin cậy và hiệu quả hơn trong việc hỗ trợ con người trong nhiều lĩnh vực khác nhau.

Các Khía Cạnh Cần Xem Xét Thêm

Mặc dù nghiên cứu của LangChain đã cung cấp những thông tin giá trị, nhưng vẫn còn một số khía cạnh cần được xem xét thêm. Ví dụ, cần nghiên cứu sâu hơn về cách các multi-agent systems có thể được thiết kế để hoạt động một cách hiệu quả và an toàn, cũng như cách đảm bảo rằng các agent khác nhau có thể giao tiếp và hợp tác một cách trôi chảy.

Ngoài ra, cần nghiên cứu về cách đánh giá và cải thiện khả năng thích ứng của các agent trong môi trường thay đổi. AI agents cần có khả năng học hỏi và thích nghi với các tình huống mới để duy trì hiệu suất cao trong thời gian dài.

Kết Luận

Nghiên cứu của LangChain là một bước quan trọng trong việc hiểu rõ hơn về khả năng và hạn chế của AI agents. Bằng cách tiếp tục nghiên cứu và phát triển các kiến trúc agent thông minh hơn, chúng ta có thể khai thác tối đa tiềm năng của AI agents để giải quyết các vấn đề phức tạp và cải thiện cuộc sống của con người.