Google ra mắt mô hình Gemini 2.0 Flash Thinking miễn phí, gây áp lực lên chiến lược cao cấp của OpenAI

Google đã âm thầm phát hành một bản cập nhật lớn cho mô hình trí tuệ nhân tạo phổ biến của mình, Gemini, hiện có khả năng giải thích quy trình suy luận của nó, lập kỷ lục hiệu suất mới trong các nhiệm vụ toán học và khoa học, đồng thời cung cấp một giải pháp thay thế miễn phí cho các dịch vụ cao cấp của OpenAI.

Mô hình Gemini 2.0 Flash Thinking mới, được phát hành vào thứ Ba trong Google AI Studio dưới tên thử nghiệm “Exp-01-21“, đã đạt được số điểm 73,3% trong Kỳ thi Toán học Invitational Hoa Kỳ (AIME) và 74,2% trong chuẩn khoa học GPQA Diamond. Những kết quả này cho thấy sự cải thiện rõ rệt so với các mô hình AI trước đây và chứng minh sức mạnh ngày càng tăng của Google trong lĩnh vực suy luận nâng cao.

Txl 1 28

“Chúng tôi đã đi tiên phong trong các loại hệ thống lập kế hoạch này trong hơn một thập kỷ, bắt đầu với các chương trình như AlphaGo, và thật thú vị khi thấy sự kết hợp mạnh mẽ của những ý tưởng này với các mô hình nền tảng có khả năng nhất,” Demis Hassabis, CEO của Google DeepMind, đã viết trong một bài đăng trên X (trước đây là Twitter).

Bản cập nhật mới nhất của chúng tôi cho mô hình Gemini 2.0 Flash Thinking (có tại đây: https://t.co/Rr9DvqbUdO) đạt 73,3% trên AIME (toán) và 74,2% trên các chuẩn GPQA Diamond (khoa học). Cảm ơn tất cả phản hồi của bạn, đây là tiến độ siêu nhanh so với bản phát hành đầu tiên của chúng tôi chỉ mới gần đây… pic.twitter.com/cM1gNwBoTO
— Demis Hassabis (@demishassabis) Ngày 21 tháng 1 năm 2025

Gemini 2.0 Flash Thinking phá kỷ lục với khả năng xử lý một triệu token

Tính năng nổi bật nhất của mô hình là khả năng xử lý tới một triệu token văn bản — gấp năm lần so với mô hình o1 Pro của OpenAI — đồng thời duy trì thời gian phản hồi nhanh hơn. Cửa sổ ngữ cảnh mở rộng này cho phép mô hình phân tích đồng thời nhiều bài nghiên cứu hoặc bộ dữ liệu lớn, một khả năng có thể thay đổi cách các nhà nghiên cứu và nhà phân tích làm việc với khối lượng thông tin lớn.

“Trong một thử nghiệm đầu tiên, tôi đã lấy nhiều văn bản tôn giáo và triết học khác nhau và yêu cầu Gemini 2.0 Flash Thinking kết hợp chúng lại với nhau, trích xuất những hiểu biết mới mẻ và độc đáo,” Dan Mac, một nhà nghiên cứu AI đã thử nghiệm mô hình, cho biết trong một bài đăng trên X. “Nó đã xử lý tổng cộng 970.000 token. Đầu ra khá ấn tượng.”

Việc phát hành diễn ra vào một thời điểm quan trọng trong sự phát triển của ngành AI. OpenAI gần đây đã công bố mô hình o3, đạt 87,7% điểm trên chuẩn GPQA Diamond. Tuy nhiên, quyết định của Google cung cấp mô hình của mình miễn phí trong quá trình thử nghiệm beta (với giới hạn sử dụng) có thể thu hút các nhà phát triển và doanh nghiệp đang tìm kiếm các giải pháp thay thế cho gói đăng ký hàng tháng 200 đô la của OpenAI.

Txl 1 29 — Kết quả chuẩn cho thấy mô hình Gemini 2.0 Flash Thinking mới nhất của Google vượt trội đáng kể so với các phiên bản trước đây trong các nhiệm vụ toán học, khoa học và suy luận. (Nguồn: Google DeepMind)

Google cung cấp Gemini 2.0 Flash Thinking miễn phí với khả năng thực thi mã tích hợp

Jeff Dean, nhà khoa học trưởng tại Google DeepMind, nhấn mạnh những cải tiến về độ tin cậy của mô hình: “Chúng tôi tiếp tục lặp lại, với độ tin cậy cao hơn và giảm mâu thuẫn giữa suy nghĩ và câu trả lời cuối cùng của mô hình,” ông viết.

Mô hình này cũng bao gồm các khả năng thực thi mã gốc, cho phép các nhà phát triển chạy và thử nghiệm mã trực tiếp trong hệ thống. Tính năng này, kết hợp với các biện pháp bảo vệ chống mâu thuẫn được cải thiện, định vị Gemini 2.0 Flash Thinking như một đối thủ nặng ký cho cả các ứng dụng nghiên cứu và thương mại.

Các nhà phân tích trong ngành lưu ý rằng việc Google tập trung vào giải thích quy trình suy luận của mình có thể giúp giải quyết những lo ngại ngày càng tăng về tính minh bạch và độ tin cậy của AI. Không giống như các mô hình “hộp đen” truyền thống, Gemini 2.0 Flash Thinking cho thấy cách thức hoạt động của nó, giúp người dùng dễ dàng hiểu và xác minh các kết luận của nó hơn.

Chúng tôi tiếp tục lặp lại, với độ tin cậy cao hơn và giảm mâu thuẫn giữa suy nghĩ và câu trả lời cuối cùng của mô hình.
Hãy xem thử với tên gemini-2.0-flash-thinking-exp-01-21 tại https://t.co/sw0jY6k74m
— Jeff Dean (@JeffDean) Ngày 21 tháng 1 năm 2025

Tính minh bạch của AI trở thành chiến trường mới khi Google thách thức OpenAI

Mô hình này đã giành vị trí đầu bảng trên bảng xếp hạng Chatbot Arena, một chuẩn mực nổi bật về hiệu suất AI, dẫn đầu trong các danh mục bao gồm các lời nhắc khó, mã hóa và viết sáng tạo.

Tuy nhiên, vẫn còn những câu hỏi về hiệu suất và giới hạn thực tế của mô hình. Mặc dù điểm chuẩn cung cấp các số liệu có giá trị, nhưng chúng không phải lúc nào cũng chuyển trực tiếp thành các ứng dụng thực tế. Thách thức của Google sẽ là thuyết phục khách hàng doanh nghiệp rằng ưu đãi miễn phí của họ có thể phù hợp hoặc vượt quá khả năng của các giải pháp thay thế cao cấp.

Khi cuộc chạy đua vũ trang AI ngày càng gay gắt, bản phát hành mới nhất của Google cho thấy sự thay đổi trong chiến lược: kết hợp các khả năng tiên tiến với khả năng tiếp cận. Liệu cách tiếp cận này có giúp thu hẹp khoảng cách với OpenAI hay không vẫn còn phải chờ xem, nhưng chắc chắn nó mang đến cho các nhà ra quyết định kỹ thuật một lý do chính đáng để xem xét lại các mối quan hệ đối tác AI của họ.

Hiện tại, một điều rõ ràng: Kỷ nguyên AI có thể cho thấy cách thức hoạt động của nó đã đến và nó có sẵn cho bất kỳ ai có tài khoản Google.