Chế độ 'Nghiên cứu Sâu' mới do o3 hỗ trợ của OpenAI cho thấy sức mạnh của kỷ nguyên AI Agent

Trong trường hợp bạn đã bỏ lỡ nó vì Giải thưởng Grammy đêm qua, OpenAI đã gây bất ngờ cho thế giới vào tối Chủ Nhật với thông báo về phương thức “Nghiên cứu Sâu” mới của mình, một AI agent dành cho người dùng gói đăng ký ChatGPT Pro (200 đô la/tháng) được thiết kế để tiết kiệm hàng giờ cho con người bằng cách nghiên cứu “sâu” và mở rộng trên web về các chủ đề nhất định và tổng hợp các báo cáo chất lượng chuyên nghiệp trên các lĩnh vực chuyên môn từ kinh doanh đến khoa học, y học, marketing và hơn thế nữa.

Sam Altman, Giám đốc điều hành của OpenAI, đã mô tả tính năng này trong một loạt bài đăng trên tài khoản cá nhân của mình trên mạng xã hội X là “giống như một siêu năng lực; các chuyên gia theo yêu cầu!” Ông nói thêm, “Nó thực sự tốt và có thể thực hiện các nhiệm vụ mà phải mất hàng giờ/ngày và tốn hàng trăm đô la.”

Nghiên cứu Sâu được xây dựng dựa trên Dòng mô hình lý luận O của OpenAI, đặc biệt tận dụng mô hình o3 đầy đủ sắp ra mắt (một mô hình nhỏ hơn và kém mạnh mẽ hơn, o3-mini, vừa được ra mắt vào thứ Sáu). Mô hình o3 đầy đủ có thể phân tích lượng lớn thông tin và tích hợp văn bản, PDF và hình ảnh vào một phân tích mạch lạc.

Trong một livestream được đăng trên YouTube và có sẵn để phát lại theo yêu cầu, Mark Chen, Trưởng phòng Nghiên cứu Tiên phong của OpenAI, giải thích rằng “Nghiên cứu Sâu là một mô hình thực hiện nghiên cứu nhiều bước trên internet. Nó khám phá nội dung, tổng hợp nội dung và suy luận về nội dung này, điều chỉnh kế hoạch khi nó khám phá ngày càng nhiều thông tin.”

Chen tiếp tục nhấn mạnh tầm quan trọng của sự đổi mới đối với tầm nhìn của OpenAI: “Đây là cốt lõi trong lộ trình AGI của chúng tôi. Khát vọng cuối cùng của chúng tôi là một mô hình có thể khám phá và khám phá kiến thức mới cho chính nó.”

Việc ra mắt Nghiên cứu Sâu đánh dấu lần thứ hai trong số các agent chính thức của OpenAI sau khi ra mắt Trình điều khiển trình duyệt và con trỏ Operator vào đầu tháng này. Và Joshua Achiam, Trưởng phòng Căn chỉnh Sứ mệnh tại Stargate Command tại OpenAI đã viết trên X, cả hai mô hình đều có thể giúp xác định rõ hơn khái niệm về một “AI agent” — một thuật ngữ phổ biến nhưng mơ hồ ngày nay giữa các doanh nghiệp — vượt xa công ty hoặc các trường hợp sử dụng cụ thể này.

“Tôi cảm thấy như thuật ngữ ‘agent’ đã lang thang trong sa mạc một thời gian,” Achaim viết. “Nó không có nền tảng hoặc ví dụ để chỉ ra. Nhưng các agent như Operator hoặc Nghiên cứu Sâu mang lại một số hình dạng cho khái niệm này. Một agent là một AI đa mục đích thực hiện một hoặc nhiều quy trình làm việc sử dụng công cụ cho bạn.”

Nghiên cứu Sâu của OpenAI đạt điểm số cao nhất mới trên chuẩn AI ‘Bài kiểm tra cuối cùng của nhân loại’

Nghiên cứu Sâu đã đặt ra các chuẩn mực mới về độ chính xác và lý luận.

Isa Fulford, một thành viên của nhóm nghiên cứu của OpenAI, đã chia sẻ trong buổi livestream trên YouTube rằng mô hình đạt được “mức cao mới là 26,6% độ chính xác” trên “Bài kiểm tra cuối cùng của nhân loại” một chuẩn AI tương đối mới được thiết kế để trở nên khó nhất đối với bất kỳ mô hình AI nào (hoặc con người, về vấn đề đó) để hoàn thành, bao gồm 3.000 câu hỏi trên 100 môn học khác nhau, chẳng hạn như dịch các chữ khắc cổ trên các phát hiện khảo cổ.

Hơn nữa, khả năng duyệt web, lý luận linh hoạt và trích dẫn nguồn chính xác của nó giúp nó khác biệt so với các công cụ AI trước đây.

“Mô hình được đào tạo bằng cách sử dụng học tăng cường từ đầu đến cuối trên các tác vụ duyệt web và lý luận khó,” Fulford nói. “Nó đã học cách lập kế hoạch và thực hiện các quỹ đạo nhiều bước, phản ứng với thông tin thời gian thực và quay lại khi cần thiết.”

Một tính năng nổi bật của Nghiên cứu Sâu là khả năng xử lý các tác vụ mà nếu không con người phải mất hàng giờ hoặc thậm chí nhiều ngày.

Trong buổi thông báo, Chen giải thích rằng “Nghiên cứu Sâu tạo ra các đầu ra giống như một bài báo nghiên cứu toàn diện, được trích dẫn đầy đủ — một thứ mà một nhà phân tích hoặc chuyên gia trong lĩnh vực này có thể tạo ra.”

Các ứng dụng và trường hợp sử dụng

Các trường hợp sử dụng cho Nghiên cứu Sâu rất đa dạng và có tác động.

Tài khoản chính thức của OpenAI trên X tuyên bố rằng nó được “xây dựng cho những người làm công việc tri thức chuyên sâu trong các lĩnh vực như tài chính, khoa học, chính sách & kỹ thuật và cần nghiên cứu kỹ lưỡng & đáng tin cậy.”

Nó cũng có vẻ có giá trị đối với người tiêu dùng đang tìm kiếm các đề xuất được cá nhân hóa hoặc thực hiện nghiên cứu sản phẩm chi tiết, theo các ví dụ được chia sẻ bởi OpenAI trên bài đăng trên blog thông báo chính thức về Nghiên cứu Sâu, bao gồm đánh giá nghiên cứu chi tiết về ván trượt tuyết tốt nhất cho ai đó mua.

Altman tóm tắt tính linh hoạt của công cụ này bằng cách viết, “Hãy thử nó vào nhiệm vụ công việc khó khăn nhất của bạn có thể được giải quyết chỉ bằng cách sử dụng internet và xem điều gì sẽ xảy ra.”

Câu chuyện thành công y tế cá nhân của Nghiên cứu Sâu

Felipe Millon, trưởng nhóm Go-to-Market của Chính phủ OpenAI, đã chia sẻ một câu chuyện cá nhân sâu sắc về cách Nghiên cứu Sâu tác động đến gia đình anh. Viết trong một loạt bài đăng trên X, anh mô tả cuộc chiến của vợ mình với bệnh ung thư vú song phương và cách công cụ AI trở thành một đồng minh bất ngờ.

“Vào cuối tháng 10, vợ tôi được chẩn đoán mắc bệnh ung thư vú song phương. Chỉ sau một đêm, thế giới của chúng tôi đảo lộn,” Millon viết.

Sau khi phẫu thuật cắt bỏ vú đôi và hóa trị, hai vợ chồng phải đối mặt với một quyết định quan trọng: có nên tiếp tục xạ trị hay không. Tình hình rất khó khăn với sự không chắc chắn, vì ngay cả các chuyên gia của họ cũng đưa ra các khuyến nghị khác nhau. “Đối với trường hợp cụ thể của cô ấy, nó hoàn toàn nằm trong vùng xám,” Millon giải thích. “Chúng tôi cảm thấy bế tắc.”

Có quyền truy cập xem trước vào Nghiên cứu Sâu, Millon quyết định tải lên báo cáo bệnh lý phẫu thuật của vợ mình và hỏi liệu xạ trị có mang lại lợi ích hay không. “Điều xảy ra tiếp theo thật đáng kinh ngạc,” anh viết. “Nó không chỉ xác nhận những gì các bác sĩ ung thư của chúng tôi đã đề cập — nó còn đi sâu hơn. Nó trích dẫn các nghiên cứu mà tôi chưa từng nghe đến và điều chỉnh khi chúng tôi thêm các chi tiết như tuổi tác và các yếu tố di truyền của cô ấy.”

Lời nhắc cụ thể mà anh ấy đã sử dụng là:

“Đọc báo cáo bệnh lý phẫu thuật (đính kèm) chứa thông tin về bệnh ung thư vú song phương. Sau đó, hãy nghiên cứu xem liệu xạ trị có được chỉ định cho bệnh nhân này sau 6 vòng hóa trị TCHP dựa trên loại ung thư vú hay không. Tôi muốn hiểu rõ những ưu và nhược điểm của xạ trị đối với bệnh nhân này, khả năng giảm nguy cơ tái phát và liệu lợi ích có lớn hơn những rủi ro tiềm ẩn lâu dài hay không.”

Millon và vợ anh đã kiểm tra thực tế từng nghiên cứu mà mô hình trích dẫn, thấy chúng chính xác và có liên quan cao. “Chúng tôi sẽ gặp một chuyên gia khác sớm thôi, nhưng chúng tôi đã cảm thấy tự tin hơn về quyết định của mình,” anh viết. “Nó đã mang lại cho chúng tôi sự an tâm khi chúng tôi cần nó nhất.”

Tính khả dụng và những gì tiếp theo?

Nghiên cứu Sâu hiện có sẵn cho người dùng Pro của ChatGPT, với kế hoạch mở rộng sang các cấp Plus và Team, sau đó là các thị trường Doanh nghiệp và giáo dục.

Như Chen đã cảnh báo, “Nó vẫn có thể bị ảo giác, vì vậy khi bạn lập báo cáo, hãy nhớ tự kiểm tra các nguồn.”

Khả năng tự suy nghĩ trong thời gian dài của mô hình cũng khiến nó tốn nhiều tài nguyên và OpenAI hiện đang làm việc để tối ưu hóa hiệu suất của nó để có khả năng truy cập rộng hơn.

OpenAI cũng đã gợi ý về các tích hợp trong tương lai với các bộ dữ liệu tùy chỉnh, cho phép các tổ chức tận dụng công cụ này cho nghiên cứu độc quyền.

Đối với Millon, tác động của Nghiên cứu Sâu đã rõ ràng. “Chúng tôi thường nói nội bộ tại OpenAI về những khoảnh khắc bạn ‘cảm nhận được AGI’ và đây là một trong số đó,” anh viết. “Thứ này sẽ thay đổi thế giới.”