Tự huấn luyện AI: Mô hình tổng quát hóa hiệu quả hơn

Tự Huấn Luyện AI: Mô Hình Tổng Quát Hóa Hiệu Quả Hơn Khi Ít Giám Sát

Ảnh minh họa cho tự huấn luyện AI

Giới thiệu về Tự Huấn Luyện AI và Tổng Quát Hóa

Nghiên cứu mới đây từ Đại học Hong Kong và Đại học California, Berkeley cho thấy rằng các mô hình ngôn ngữ có thể
tổng quát hóa tốt hơn khi được tự do tạo ra các giải pháp của riêng mình. Phát hiện này, áp
dụng cho cả mô hình ngôn ngữ lớn (LLM)mô hình ngôn ngữ thị giác
(VLM)
, thách thức một trong những niềm tin chính của cộng đồng LLM – rằng các mô hình cần các ví dụ đào tạo
được gắn nhãn thủ công. Trên thực tế, các nhà nghiên cứu chỉ ra rằng việc đào tạo mô hình trên quá nhiều ví dụ được
tạo thủ công có thể có tác động bất lợi đến khả năng tổng quát hóa dữ liệu chưa từng thấy của mô hình.

SFT so với RL trong Đào Tạo Mô Hình

Trong một thời gian dài, tinh chỉnh có giám sát (SFT) đã là tiêu chuẩn vàng để đào tạo LLM và
VLM. Sau khi mô hình được đào tạo trước trên văn bản thô và dữ liệu hình ảnh, các công ty và phòng thí nghiệm AI
thường đào tạo lại nó trên một bộ dữ liệu lớn các ví dụ được tạo thủ công ở định dạng hỏi/đáp hoặc yêu cầu/phản hồi.
Sau SFT, mô hình có thể trải qua các giai đoạn đào tạo bổ sung, chẳng hạn như
học tăng cường từ phản hồi của con người (RLHF), nơi mô hình cố gắng tìm hiểu các sở thích
ẩn ý của con người dựa trên các tín hiệu như xếp hạng câu trả lời hoặc thích/không thích các phản hồi của mô hình.

SFT rất hữu ích để điều chỉnh hành vi của mô hình theo loại tác vụ mà người tạo mô hình đã thiết kế cho nó. Tuy
nhiên, việc thu thập dữ liệu là một quá trình chậm và tốn kém, đây là một trở ngại cho nhiều công ty và phòng thí
nghiệm.

Những phát triển gần đây trong LLM đã tạo ra sự quan tâm đến các phương pháp
học tăng cường (RL) thuần túy, trong đó mô hình được giao một nhiệm vụ và tự học mà không cần
các ví dụ được tạo thủ công. Trường hợp quan trọng nhất là DeepSeek-R1, đối thủ cạnh tranh
OpenAI o1 chủ yếu sử dụng học tăng cường để học các nhiệm vụ suy luận phức tạp.

Tổng Quát Hóa so với Ghi Nhớ

Một trong những vấn đề chính của hệ thống học máy (ML)quá khớp, trong đó mô hình
hoạt động tốt trên dữ liệu đào tạo của nó nhưng không tổng quát hóa được các ví dụ chưa từng thấy. Trong quá trình
đào tạo, mô hình tạo ấn tượng sai lầm rằng đã học được nhiệm vụ, trong khi trên thực tế nó chỉ ghi nhớ các ví dụ
đào tạo của nó. Trong các mô hình AI lớn và phức tạp, việc tách biệt tổng quát hóa khỏi ghi nhớ có thể khó khăn.

XEM THÊM:  Ứng Dụng của Công Cụ Gọi Dụng Cụ (Tool Calling) Trong Phát Triển Ứng Dụng

Nghiên cứu mới tập trung vào khả năng tổng quát hóa của đào tạo RL và SFT trong các nhiệm vụ suy luận bằng văn bản
và hình ảnh. Đối với suy luận bằng văn bản, một LLM được đào tạo trên một tập hợp các quy tắc sẽ có thể tổng quát
hóa cho các biến thể của các quy tắc đó. Trong suy luận bằng hình ảnh, một VLM sẽ duy trì tính nhất quán trong hiệu
suất tác vụ đối với những thay đổi đối với các khía cạnh khác nhau của đầu vào trực quan, chẳng hạn như màu sắc và
bố cục không gian.

Các Thí Nghiệm và Kết Quả

Trong các thí nghiệm của mình, các nhà nghiên cứu đã sử dụng hai nhiệm vụ đại diện. Đầu tiên là GeneralPoints, một
điểm chuẩn đánh giá khả năng suy luận số học của mô hình. Mô hình được cung cấp bốn thẻ, dưới dạng mô tả bằng văn
bản hoặc hình ảnh, và được yêu cầu kết hợp chúng để đạt được một số mục tiêu. Để nghiên cứu khả năng tổng quát hóa
dựa trên quy tắc, các nhà nghiên cứu đã đào tạo mô hình bằng cách sử dụng một tập hợp các quy tắc, sau đó đánh giá nó
bằng một quy tắc khác. Đối với khả năng tổng quát hóa trực quan, họ đã đào tạo mô hình bằng cách sử dụng các thẻ có
một màu và kiểm tra hiệu suất của nó trên các thẻ có màu khác và sơ đồ đánh số khác.

Nhiệm vụ thứ hai là V-IRL, kiểm tra khả năng suy luận không gian của mô hình trong một miền điều
hướng thế giới mở sử dụng đầu vào trực quan thực tế. Tác vụ này cũng có các phiên bản ngôn ngữ thuần túy và ngôn ngữ
thị giác. Các nhà nghiên cứu đã đánh giá khả năng tổng quát hóa bằng cách thay đổi loại hướng dẫn và biểu diễn trực
quan mà mô hình được đào tạo và thử nghiệm.

Ví dụ về nhiệm vụ V-IRL

Họ đã chạy các thử nghiệm của mình trên
Llama-3.2-Vision-11B, làm nóng mô hình bằng cách đào tạo nó trên một tập dữ liệu SFT nhỏ, sau
đó tạo các phiên bản riêng biệt cho từng tác vụ và mô hình đào tạo. Đối với mỗi tác vụ, họ đã chia tỷ lệ riêng biệt
việc đào tạo trên RL và SFT. Quá trình SFT đào tạo mô hình trên các giải pháp được tạo thủ công bổ sung, trong khi
RL cho phép mô hình tạo ra nhiều giải pháp cho mỗi vấn đề, đánh giá kết quả và tự đào tạo trên các câu trả lời
chính xác.

Các phát hiện cho thấy rằng học tăng cường liên tục cải thiện hiệu suất trên các ví dụ khác biệt đáng kể so với dữ
liệu đào tạo. Mặt khác, SFT dường như ghi nhớ các quy tắc đào tạo và không tổng quát hóa cho các ví dụ ngoài phân
phối (OOD). Những quan sát này áp dụng cho cả cài đặt chỉ văn bản và đa phương thức.

XEM THÊM:  Số vụ hack máy tính để đào tiền số tăng mạnh

So sánh hiệu suất SFT và RL trên dữ liệu OOD


Các mô hình được đào tạo SFT hoạt động tốt trên các ví dụ đào tạo (trong phân phối) trong khi cho thấy hiệu suất
kém trên các ví dụ chưa từng thấy (ngoài phân phối) (nguồn: arXiv)

Ý Nghĩa đối với Ứng Dụng Thực Tế

Mặc dù các thí nghiệm của họ cho thấy rằng RL tốt hơn trong việc tổng quát hóa so với SFT, nhưng các nhà nghiên cứu
cũng nhận thấy rằng SFT rất hữu ích để ổn định định dạng đầu ra của mô hình và rất quan trọng để cho phép RL đạt
được mức tăng hiệu suất của nó. Các nhà nghiên cứu nhận thấy rằng, nếu không có giai đoạn SFT ban đầu, đào tạo RL
không đạt được kết quả mong muốn.

Điều này hơi khác so với kết quả thu được bởi DeepSeek-R1-Zero, được đào tạo lại trên RL thuần túy. Các nhà nghiên
cứu cho rằng điều này có thể là do mô hình xương sống khác nhau mà họ đã sử dụng trong các thí nghiệm của mình.

Rõ ràng là có rất nhiều tiềm năng chưa được khai thác trong các phương pháp tiếp cận nặng về RL. Đối với các trường
hợp sử dụng có kết quả có thể kiểm chứng, việc cho phép các mô hình tự học thường có thể dẫn đến những kết quả
không lường trước được mà con người không thể tự tạo ra. Điều này có thể rất hữu ích trong các cài đặt mà việc tạo
các ví dụ thủ công có thể tẻ nhạt và tốn kém.

Ưu điểm của Tự Huấn Luyện AI

Tự huấn luyện AI mang lại nhiều ưu điểm đáng kể so với các phương pháp truyền thống. Dưới đây là một số lợi ích quan trọng:

  • Khả năng Tổng Quát Hóa Tốt Hơn: Các mô hình tự huấn luyện có khả năng tổng quát hóa dữ liệu mới và chưa từng thấy tốt hơn, giúp chúng hoạt động hiệu quả hơn trong môi trường thực tế.
  • Tiết Kiệm Chi Phí: Việc giảm sự phụ thuộc vào dữ liệu được gắn nhãn thủ công giúp tiết kiệm chi phí đáng kể trong quá trình đào tạo mô hình.
  • Tính Linh Hoạt: Các mô hình tự huấn luyện có thể dễ dàng thích nghi với các nhiệm vụ và môi trường khác nhau mà không cần phải được đào tạo lại từ đầu.
  • Khám Phá Giải Pháp Sáng Tạo: Việc cho phép mô hình tự do tìm kiếm giải pháp có thể dẫn đến những kết quả và phương pháp tiếp cận mới mà con người có thể không nghĩ ra.
XEM THÊM:  DeepHermes-3: Mô hình AI lý luận đột phá từ Nous Research

Các Ứng Dụng Tiềm Năng của Tự Huấn Luyện AI

Tự huấn luyện AI có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau. Dưới đây là một số ví dụ:

  • Robot học: Tự huấn luyện có thể giúp robot học cách điều hướng và tương tác với môi trường xung quanh một cách tự chủ, mở ra cơ hội cho các ứng dụng trong sản xuất, hậu cần và dịch vụ.
  • Xử lý ngôn ngữ tự nhiên: Các mô hình ngôn ngữ tự huấn luyện có thể cải thiện khả năng hiểu và tạo ra văn bản, giúp nâng cao chất lượng của các ứng dụng như chatbot, dịch máy và tóm tắt văn bản.
  • Thị giác máy tính: Tự huấn luyện có thể giúp các mô hình thị giác máy tính nhận diện và phân loại hình ảnh một cách chính xác hơn, mở ra cơ hội cho các ứng dụng trong giám sát an ninh, chẩn đoán y tế và xe tự lái.
  • Phát hiện gian lận: Các mô hình tự huấn luyện có thể phát hiện các mẫu gian lận phức tạp trong dữ liệu tài chính và giao dịch, giúp các tổ chức ngăn chặn các hành vi bất hợp pháp.

Thách Thức và Hướng Đi Tương Lai

Mặc dù tự huấn luyện AI mang lại nhiều lợi ích, nhưng cũng có một số thách thức cần vượt qua:

  • Tính Ổn Định: Đảm bảo tính ổn định và khả năng kiểm soát của quá trình đào tạo tự huấn luyện có thể là một thách thức, đặc biệt là khi mô hình phải tự khám phá các giải pháp.
  • Đánh Giá: Đánh giá hiệu quả của các mô hình tự huấn luyện có thể khó khăn, vì chúng có thể tạo ra các giải pháp không trực quan hoặc khó giải thích.
  • Thiên Vị: Các mô hình tự huấn luyện có thể học các thiên vị từ dữ liệu đào tạo, dẫn đến kết quả không công bằng hoặc không chính xác.

Trong tương lai, nghiên cứu sẽ tập trung vào việc giải quyết những thách thức này và phát triển các phương pháp tự huấn luyện AI hiệu quả và đáng tin cậy hơn. Điều này sẽ mở ra cánh cửa cho các ứng dụng AI sáng tạo và mang lại lợi ích to lớn cho xã hội.

Thách Thức và Hướng Đi Tương Lai

Bạn có thấy hữu ích không? Hãy cho chúng tôi +1 nhé

Đăng ký nhận bản tin từ Website TXL

Tìm kiếm tức thì các thông tin tại website: tranxuanloc.com

Mẹo tìm kiếm: "Từ khóa cần tìm kiếm" site:tranxuanloc.com để tìm được kết quả chính xác trên công cụ tìm kiếm của google

Trần Xuân Lộc Blog cung cấp dịch vụ

TOP ĐỐI TÁC CUNG CẤP DỊCH VỤ DU LỊCH TRỰC TUYẾN HÀNG ĐẦU

(Đặt phòng, đặt tour, đặt xe, đặt vé máy bay...Nhấn vào link logo để đặt dịch vụ với nhiều ưu đãi hấp dẫn)

Cảnh báo: Hiện nay có rất nhiều đơn vị SỬ DỤNG LẠI các THÔNG TIN NỘI DUNG ĐÀO TẠO của KHÓA HỌC SALE OTA TỪ OTAVN mà không đảm bảo chất lượng và hỗ trợ về sau. Các bạn muốn đăng ký học SALE OTA uy tín hãy liên hệ trực tiếp với OTA Việt Nam. OTAVN có xây dựng các hình thức đào tạo trực tiếp offline cho doanh nghiệp, đào tạo 1-1 từ xa và tự học online. Chúng tôi có 2 tên miền là: otavietnam.com và tranxuanloc.com (founder) có chia sẻ và đăng tải các thông tin liên quan về OTA/ Sale OTA/ Digital Marketing/ Thiết kế website... Với khách hàng/ đối tác đã sử dụng dịch vụ của OTAVN sẽ được HỖ TRỢ MIỄN PHÍ các vấn đề phát sinh, tư vấn giải đáp sau khi đã hoàn thành khóa học hoặc sau khi đã sử dụng dịch vụ trọn đời. Hotline:0934552325 (iMessage/ Zalo/ Whatsapp) - Email: [email protected]