DeepSeek-R1 rất tuyệt, nhưng lợi thế sản phẩm của ChatGPT vẫn còn lâu mới kết thúc

Chỉ mới một tuần trước — vào ngày 20 tháng 1 năm 2025 — startup AI Trung Quốc DeepSeek đã cho ra mắt một mô hình AI mã nguồn mở mới có tên R1, ban đầu có thể bị nhầm lẫn với một trong số vô vàn đối thủ cạnh tranh gần như có thể thay thế lẫn nhau đã xuất hiện kể từ khi OpenAI ra mắt ChatGPT (ban đầu được cung cấp bởi mô hình GPT-3.5 của riêng mình) hơn hai năm trước.

Nhưng điều đó nhanh chóng bị chứng minh là vô căn cứ, vì ứng dụng di động của DeepSeek trong thời gian ngắn đó đã tăng vọt trên bảng xếp hạng của Apple App Store ở Hoa Kỳ để soán ngôi ChatGPT ở vị trí số một và gây ra sự điều chỉnh lớn trên thị trường khi các nhà đầu tư bán tháo cổ phiếu của các nhà sản xuất chip máy tính từng rất hot như Nvidia, có đơn vị xử lý đồ họa (GPU) đang có nhu cầu cao để sử dụng trong các siêu cụm lớn để đào tạo các mô hình AI mới và cung cấp chúng cho khách hàng trên cơ sở liên tục (một phương thức được gọi là “suy luận”).Nhà đầu tư mạo hiểm Marc Andreessen, lặp lại quan điểm của các nhân viên công nghệ khác, đã viết trên mạng xã hội X tối qua: “Deepseek R1 là khoảnh khắc Sputnik của AI,” so sánh nó với vụ phóng vệ tinh nhân tạo đầu tiên trong lịch sử, Sputnik 1, vào tháng 10 năm 1957 của Liên Xô, đã gây ra “cuộc chạy đua vào vũ trụ” giữa quốc gia đó và Hoa Kỳ để thống trị du hành vũ trụ.

Vụ phóng Sputnik đã thúc đẩy Hoa Kỳ đầu tư mạnh vào nghiên cứu và phát triển tàu vũ trụ và tên lửa. Mặc dù đây không phải là một sự tương đồng hoàn hảo — không cần đầu tư lớn để tạo ra DeepSeek-R1, hoàn toàn ngược lại (thêm về điều này bên dưới) — nó dường như báo hiệu một bước ngoặt lớn trên thị trường AI toàn cầu, vì lần đầu tiên, một sản phẩm AI từ Trung Quốc đã trở nên phổ biến nhất trên thế giới.

Nhưng trước khi chúng ta nhảy lên chuyến tàu cường điệu DeepSeek, hãy lùi lại một bước và xem xét thực tế. Với tư cách là một người đã sử dụng rộng rãi ChatGPT của OpenAI — trên cả nền tảng web và di động — và theo dõi chặt chẽ những tiến bộ về AI, tôi tin rằng mặc dù những thành tựu của DeepSeek-R1 rất đáng chú ý, nhưng vẫn chưa đến lúc loại bỏ ChatGPT hoặc các khoản đầu tư AI của Hoa Kỳ. Và xin lưu ý, tôi không được OpenAI trả tiền để nói điều này — tôi chưa bao giờ nhận tiền từ công ty và không có kế hoạch làm như vậy.

nguồn: VentureBeat tạo bằng ChatGPT

DeepSeek-R1 làm tốt điều gì

DeepSeek-R1 là một phần của thế hệ mới các mô hình “lý luận” lớn, làm được nhiều hơn là trả lời các truy vấn của người dùng: Chúng phản ánh phân tích của chính mình trong khi đang tạo ra phản hồi, cố gắng bắt lỗi trước khi cung cấp chúng cho người dùng.

Và DeepSeek-R1 ngang bằng hoặc vượt trội hơn mô hình lý luận riêng của OpenAI, o1, được phát hành vào tháng 9 năm 2024 ban đầu chỉ dành cho người dùng đăng ký ChatGPT Plus và Pro, trong một số lĩnh vực.

Ví dụ: trên điểm chuẩn MATH-500, đánh giá khả năng giải quyết vấn đề toán học ở cấp trung học, DeepSeek-R1 đạt được tỷ lệ chính xác 97,3%, cao hơn một chút so với 96,4% của OpenAI o1. Về khả năng viết mã, DeepSeek-R1 đạt 49,2% trên điểm chuẩn SWE-bench Verified, vượt qua 48,9% của OpenAI o1.

Hơn nữa, về mặt tài chính, DeepSeek-R1 mang lại khoản tiết kiệm chi phí đáng kể. Mô hình này được phát triển với khoản đầu tư dưới 6 triệu đô la, một phần nhỏ so với chi phí — ước tính là hàng tỷ đô la — được báo cáo là có liên quan đến việc đào tạo các mô hình như o1 của OpenAI.

DeepSeek về cơ bản đã buộc phải trở nên hiệu quả hơn với GPU khan hiếm và cũ hơn nhờ lệnh hạn chế xuất khẩu của Hoa Kỳ đối với việc bán công nghệ này cho Trung Quốc. Ngoài ra, DeepSeek cung cấp quyền truy cập API với giá 0,14 đô la cho mỗi triệu token, thấp hơn đáng kể so với mức 7,50 đô la cho mỗi triệu token của OpenAI.

Mức tăng hiệu quả lớn, tiết kiệm chi phí và hiệu suất tương đương của DeepSeek-R1 so với mô hình AI hàng đầu của Hoa Kỳ đã khiến Thung lũng Silicon và cộng đồng doanh nghiệp rộng lớn hơn hoảng sợ trước những gì có vẻ như là một sự đảo lộn hoàn toàn của thị trường AI, địa chính trị và kinh tế đã biết của việc đào tạo mô hình AI.

Mặc dù những thành tựu của DeepSeek mang tính cách mạng, nhưng con lắc đang xoay quá xa về phía nó ngay bây giờ

Không thể phủ nhận rằng tính hiệu quả về chi phí của DeepSeek-R1 là một thành tựu đáng kể. Nhưng chúng ta đừng quên rằng bản thân DeepSeek có được thành công phần lớn nhờ vào những đổi mới AI của Hoa Kỳ, trở lại kiến trúc biến áp ban đầu năm 2017 do các nhà nghiên cứu Google AI phát triển (khơi mào cho toàn bộ cơn sốt LLM).

DeepSeek-R1 được đào tạo trên các câu hỏi và câu trả lời dữ liệu tổng hợp và đặc biệt, theo bài báo được các nhà nghiên cứu của nó công bố, trên “tập dữ liệu DeepSeek-V3” được tinh chỉnh có giám sát, mô hình trước đó (không lý luận) của công ty, được phát hiện là có nhiều dấu hiệu cho thấy được tạo ra bằng chính mô hình GPT-4o của OpenAI!

Có vẻ khá rõ ràng khi nói rằng nếu không có GPT-4o để cung cấp dữ liệu này và không có việc OpenAI phát hành mô hình lý luận thương mại đầu tiên o1 vào tháng 9 năm 2024, tạo ra danh mục, thì DeepSeek-R1 gần như chắc chắn sẽ không tồn tại.

Hơn nữa, thành công của OpenAI đòi hỏi một lượng lớn tài nguyên GPU, mở đường cho những đột phá mà DeepSeek chắc chắn đã được hưởng lợi. Sự hoảng loạn hiện tại của các nhà đầu tư về các công ty chip và AI của Hoa Kỳ có vẻ là quá sớm và quá thổi phồng.

Khả năng tạo ảnh và thị giác của ChatGPT vẫn rất quan trọng và có giá trị trong môi trường làm việc và cá nhân — DeepSeek-R1 chưa có bất kỳ tính năng nào

Mặc dù DeepSeek-R1 đã gây ấn tượng với khả năng lý luận “chuỗi suy nghĩ” có thể thấy được — một kiểu dòng ý thức trong đó mô hình hiển thị văn bản khi phân tích lời nhắc của người dùng và tìm cách trả lời nó — và hiệu quả trong các quy trình làm việc dựa trên văn bản và toán học, nhưng nó lại thiếu một số tính năng khiến ChatGPT trở thành một công cụ mạnh mẽ và linh hoạt hơn hiện nay.

Không có khả năng tạo hình ảnh hoặc thị giác

Trang web và ứng dụng di động chính thức của DeepSeek-R1 cho phép người dùng tải ảnh và tệp đính kèm lên. Nhưng chúng chỉ có thể trích xuất văn bản từ chúng bằng cách sử dụng nhận dạng ký tự quang học (OCR), một trong những công nghệ máy tính sớm nhất (có từ năm 1959).

Điều này không thể so sánh với khả năng thị giác của ChatGPT. Người dùng có thể tải ảnh lên mà không cần bất kỳ văn bản nào và yêu cầu ChatGPT phân tích hình ảnh, mô tả hoặc cung cấp thêm thông tin dựa trên những gì nó nhìn thấy và lời nhắc bằng văn bản của người dùng.

ChatGPT cho phép người dùng tải ảnh lên và có thể phân tích tài liệu trực quan và cung cấp thông tin chi tiết hoặc lời khuyên hữu ích. Ví dụ: khi tôi cần hướng dẫn sửa chữa xe đạp hoặc bảo trì thiết bị điều hòa không khí, khả năng xử lý hình ảnh của ChatGPT đã chứng tỏ vô giá. DeepSeek-R1 đơn giản là chưa thể làm được điều này. Xem so sánh trực quan bên dưới:

Không có khả năng tạo hình ảnh

Việc thiếu khả năng tạo hình ảnh là một hạn chế lớn khác. Với tư cách là một người thường xuyên tạo hình ảnh AI bằng ChatGPT (chẳng hạn như cho tiêu đề bài viết này) được hỗ trợ bởi mô hình DALL·E 3 cơ bản của OpenAI, khả năng tạo hình ảnh chi tiết và phong cách bằng ChatGPT là một yếu tố thay đổi cuộc chơi.

Tính năng này rất cần thiết cho nhiều quy trình làm việc sáng tạo và chuyên nghiệp, và DeepSeek vẫn chưa chứng minh được chức năng tương đương, mặc dù hôm nay công ty đã phát hành một mô hình thị giác mã nguồn mở, Janus Pro, mà họ cho biết vượt trội hơn DALL·E 3, Stable Diffusion 3 và các mô hình tạo hình ảnh hàng đầu trong ngành khác trên các điểm chuẩn của bên thứ ba.

Không có chế độ giọng nói

DeepSeek-R1 cũng thiếu chế độ tương tác bằng giọng nói, một tính năng ngày càng trở nên quan trọng đối với khả năng tiếp cận và sự thuận tiện. Chế độ giọng nói của ChatGPT cho phép các tương tác đàm thoại tự nhiên, khiến nó trở thành lựa chọn vượt trội để sử dụng rảnh tay hoặc cho người dùng có nhu cầu tiếp cận khác nhau.

Hãy hào hứng với tiềm năng tương lai của DeepSeek — nhưng cũng hãy cảnh giác với những thách thức của nó

Đúng vậy, DeepSeek-R1 có thể — và có khả năng sẽ — thêm khả năng giọng nói và thị giác trong tương lai. Nhưng làm như vậy không phải là một kỳ công nhỏ.

Việc tích hợp khả năng tạo hình ảnh, phân tích thị giác và khả năng giọng nói đòi hỏi các nguồn lực phát triển đáng kể và trớ trêu thay, nhiều GPU hiệu suất cao tương tự mà các nhà đầu tư hiện đang đánh giá thấp. Việc triển khai các tính năng này một cách hiệu quả và thân thiện với người dùng là một thách thức hoàn toàn khác.

Những thành tựu của DeepSeek-R1 rất ấn tượng và báo hiệu một sự thay đổi đầy hứa hẹn trong bối cảnh AI toàn cầu. Tuy nhiên, điều quan trọng là phải giữ sự phấn khích trong tầm kiểm soát. Hiện tại, ChatGPT vẫn là sản phẩm toàn diện và có khả năng hơn, cung cấp một bộ tính năng mà DeepSeek đơn giản là không thể sánh được. Hãy đánh giá cao những tiến bộ đồng thời nhận ra những hạn chế và tầm quan trọng tiếp tục của sự đổi mới và đầu tư vào AI của Hoa Kỳ.