Trần Xuân Lộc: Cào dữ liệu website miễn phí bằng ngôn ngữ tự nhiên (no-code)

Giới thiệu về Cào Dữ Liệu Website bằng Ngôn Ngữ Tự Nhiên

Bạn có tin được không? Chỉ cần một truy vấn bằng ngôn ngữ tự nhiên, công cụ này đã ngay lập tức bắt đầu
cào dữ liệu từ các trang web, trích xuất chính xác thông tin tôi cần. Bạn có thể
thấy, nó trả về tất cả kết quả từ một trang duy nhất mà tôi không cần viết bất kỳ dòng code nào. Tất cả
đều được thực hiện nhờ sử dụng ngôn ngữ tự nhiên.

Giao diện cào dữ liệu bằng ngôn ngữ tự nhiên

Trong bài viết này, tôi sẽ hướng dẫn bạn cách cào bất kỳ thông tin nào từ bất kỳ trang
web nào một cách cực kỳ dễ dàng, chỉ bằng ngôn ngữ tự nhiên. Trước đây, nếu bạn muốn cào dữ
liệu một trang web, bạn cần phải:

Truy cập trang web
Tìm hiểu cấu trúc HTML hoặc các API backend
Xác định chính xác dữ liệu cần trích xuất
Tìm hiểu các thẻ HTML liên quan

Đó là một quá trình rất phức tạp. Nhưng giờ đây, với công cụ này, mọi thứ trở nên đơn giản hơn bao giờ
hết. Tôi đã tích hợp nó trực tiếp vào N8N, tạo ra một phương pháp không cần
code để tương tác và nhận phản hồi được cào trực tiếp từ trang web mà không cần bất kỳ thao tác
phức tạp nào.

Ví dụ về Cào Dữ Liệu Website bằng Ngôn Ngữ Tự Nhiên

Hãy xem ví dụ sau. Chúng ta có một cửa sổ chat trong N8N và chúng ta đang sử dụng các truy vấn bằng ngôn ngữ
tự nhiên. Ví dụ, tôi đã hỏi: “Hãy cho tôi biết về Automate.io và Relevance AI. Các dịch vụ của họ khác nhau
như thế nào?”. Đây là một truy vấn khá rộng.

Bước đầu tiên là chúng ta sẽ chuyển truy vấn này vào một chuỗi LLM (Large Language Model) và yêu cầu nó trích
xuất các câu hỏi liên quan từ đầu vào của người dùng. Điều này có nghĩa là, nếu bạn đặt một câu hỏi rất rộng,
LLM sẽ được thiết kế để trích xuất các truy vấn chính xác và tìm ra loại dữ liệu bạn có thể đang yêu cầu. Ví
dụ, nếu tôi hỏi về sự khác biệt trong dịch vụ hoặc giá cả của họ, nó có thể trích xuất một truy vấn cụ thể hơn
và chuyển nó vào giai đoạn sau, nơi chúng ta chuyển nó vào công cụ cào dữ liệu.

Bạn có thể thấy trong lời nhắc (prompt) của LLM này, chúng ta nói với nó rằng nó nhận được một tin nhắn của
người dùng làm đầu vào. Nó sẽ phân tích tin nhắn này để tìm bất kỳ URL nào (vì đó là những gì chúng ta đang cào)
và sau đó, cho mỗi cặp URL/SLUG duy nhất, tạo ra một đầu ra có cấu trúc bao gồm một URL và một lời nhắc
(prompt). Điều này sẽ được đưa vào công cụ cào dữ liệu của chúng ta. Tôi sẽ nói thêm về công cụ này sau, vì nó
đang thay đổi cách bạn có thể cào dữ liệu trên web.

Chúng ta cũng cung cấp cho nó một số ví dụ tốt. Ví dụ, chúng ta đang trích xuất hai phần thông tin: “So sánh
giá của Zia với các tính năng tự động hóa của Mate.com”. Trong trường hợp này, chúng ta đang hỏi về giá của
một trang web và các tính năng tự động hóa của một trang web khác. Do đó, nó sẽ trích xuất hai truy vấn khác
nhau mà chúng ta sẽ chuyển vào sau này.

XEM THÊM: CrowdStrike: Tối ưu SOC với AI, giảm 40 giờ xử lý thủ công

Quy trình Cào Dữ Liệu Chi Tiết

Trích xuất truy vấn: Sau khi có đầu ra cho các truy vấn, chúng ta cần trích xuất chúng.
Tách truy vấn: Chúng ta muốn chạy từng truy vấn riêng biệt, vì vậy chúng ta sử dụng một nút
“split out queries”.
Vòng lặp: Để đảm bảo tuân thủ giới hạn bộ nhớ, chúng ta đưa nó vào một vòng lặp để xử lý
từng truy vấn một. Điều này cũng giúp tôn trọng giới hạn API của công cụ chúng ta sẽ sử dụng.
Sử dụng Firw Dodev: Đây là điểm mấu chốt của quy trình.

Firw Dodev và Khả Năng Cào Dữ Liệu Bằng Ngôn Ngữ Tự Nhiên

Tôi đã sử dụng Firw Dodev một thời gian, nhưng đây là một tính năng hoàn toàn mới, cho phép bạn lấy bất kỳ dữ
liệu web nào bằng ngôn ngữ tự nhiên. Đó là endpoint “extract” của họ. Trước đây, chúng ta phải chỉ định chính
xác những gì chúng ta muốn để có thể cào trang web. Giờ đây, nó diễn giải câu hỏi của chúng ta và cố gắng đưa
ra các điểm schema liên quan mà nó nên lấy từ trang web. Đó là cách nó xử lý thông tin chính xác.

Trên trang chủ của Firw Dodev, bạn có thể thấy dòng chữ: “Biến các trang web thành dữ liệu sẵn sàng cho LLM”.
Nó thực sự hữu ích để chuyển đổi dữ liệu trang web phi cấu trúc thành định dạng markdown có cấu trúc, sau đó bạn
có thể chuyển vào một LLM. Đó là một trường hợp sử dụng tuyệt vời khác cho công cụ này.

Với endpoint “extract” mới này, bạn sẽ nhận được 500.000 token miễn phí mỗi năm và có thể gửi 10 yêu cầu mỗi
phút hoàn toàn miễn phí mỗi tháng. Một yêu cầu tiêu thụ khoảng 300 token cộng với token đầu ra. Như vậy, bạn
có thể thực hiện khoảng một nghìn yêu cầu hoàn toàn miễn phí mỗi tháng. Đây chắc chắn là lựa chọn rẻ nhất trên
thị trường để cào dữ liệu website. Hơn nữa, với workflow này, bạn có
thể làm điều đó bằng ngôn ngữ tự nhiên, điều này thật tuyệt vời.

Trong endpoint “extract” trên Firw Dodev, họ cung cấp một ví dụ về một truy vấn tốt mà bạn có thể nhập vào:
“Từ tất cả các trang trên Firw Dodev, tôi muốn trích xuất tên công ty, sứ mệnh và liệu nó có phải là mã nguồn
mở hay không”. Điều này cho Firw Dodev một ví dụ rõ ràng về loại dữ liệu nó có thể tìm kiếm khi nó cào trang
web đó. Firw Dodev xử lý tất cả các proxy rotation và mọi thứ khác. Bạn chỉ cần đảm bảo rằng truy vấn của bạn
cụ thể và cho nó biết chính xác trang nào bạn muốn lấy dữ liệu.

Endpoint “extract” hiện tại giống với endpoint “scrape”, chỉ có các đầu vào khác nhau.

Thiết lập Workflow Cào Dữ Liệu trong N8N

Hãy xem cách workflow hoạt động. Chúng ta sẽ đi vào HTTP request. Bạn có thể thấy rằng chúng ta đang đăng dữ
liệu vì chúng ta đang gửi URL và prompt. Chúng ta đang đăng dữ liệu này lên endpoint “scrape”.

XEM THÊM: Khám Phá DeepSeek V3: Mô Hình Nguồn Mở Mạnh Mẽ Trong Ngành Công Nghệ AI

Để thiết lập, bạn cần thêm header “Authorization” với giá trị “Bearer [API key của bạn]”. Lưu ý rằng bạn phải
thêm “Bearer ” (có khoảng trắng) trước API key của bạn. Trong phần body, chúng ta sẽ gửi URL và prompt mà chúng
ta muốn cào.

Firw Dodev sẽ xử lý mọi thứ khác. Sau đó, chúng ta sẽ định dạng nó. Trong biểu thức (expression), chúng ta có
URL mà chúng ta chuyển vào. Chúng ta nói với nó rằng chúng ta đang chuyển nó ở định dạng JSON. Sau đó, chúng ta
cũng nói với nó rằng đối với URL này, chúng ta muốn truy xuất thông tin này. Ví dụ, chúng ta đã chuyển
Automate.io làm URL và hỏi “giải thích các dịch vụ được cung cấp và các tính năng chính của họ so với những
người khác”. Nó sẽ đi và trích xuất thông tin mà nó cảm thấy có liên quan đến truy vấn đó mà không cần phải
chạm vào trang web. Chúng ta sẽ lặp lại và lấy tất cả thông tin đó.

Trong phần “done” của vòng lặp, chúng ta sẽ nhận được hai đầu ra mà nó đã cào. Vì chúng ta muốn định dạng nó
thành một câu trả lời hay cho câu hỏi của mình, chúng ta sẽ tổng hợp (aggregate) nó ở đây. Chúng ta chỉ cần
tổng hợp trường “data” và điều đó cho chúng ta một câu trả lời dài.

Cuối cùng, chúng ta sẽ định dạng phản hồi. Nếu chúng ta không định dạng nó, nó sẽ trả về ở định dạng JSON và
trông khá lộn xộn. Chúng ta muốn chat với các trang web này trực tiếp và nhận thông tin.

Bạn có thể thấy ở phía bên trái là một ví dụ khi chúng ta hỏi “Các dịch vụ của họ khác nhau như thế nào?”. Nó
đưa ra thông tin khác nhau cụ thể liên quan đến truy vấn của chúng ta. Nó đã chia nhỏ Automate.io, nói rằng “Chúng
tôi chuyên về workflows tự động hóa N8N” và đưa ra bốn điểm chính xung quanh đó, cũng như nêu bật một số điểm
khác biệt chính. Sau đó, với Relevance AI, nó cũng đã lấy ra một số thông tin chính.

Giai đoạn định dạng sẽ lấy định dạng JSON (một đầu ra có cấu trúc mà Firw Dodev trả về) và định dạng nó theo
cách markdown đẹp mắt, nơi chúng ta có thể đọc được các đầu ra. Với phương pháp này, bạn sẽ nhận được khoảng
một nghìn yêu cầu miễn phí mỗi tháng bằng cách sử dụng Firw Dodev và bạn có thể cào bất kỳ trang web nào chỉ
bằng ngôn ngữ tự nhiên.

Kết luận: Cào Dữ Liệu Website Dễ Dàng Hơn Bao Giờ Hết

Đây là một công cụ thay đổi cuộc chơi. Nó đã làm cho việc cào dữ liệu trở nên dễ
tiếp cận hơn với rất nhiều người. Nếu bạn thích nội dung này, hãy like và đăng ký. Nó thực sự
giúp tôi hiểu loại nội dung bạn muốn xem. Nếu bạn không thích nội dung này, đừng like nó.

Template này có trong cộng đồng của tôi, được liên kết bên dưới, cũng như một loạt các tài nguyên khác từ các
video tôi đã quay gần đây. Cảm ơn và hẹn gặp lại!

Cộng đồng hỗ trợ

Các Lợi Ích của Việc Cào Dữ Liệu Website Bằng Ngôn Ngữ Tự Nhiên

Việc sử dụng ngôn ngữ tự nhiên để cào dữ liệu website mang lại nhiều lợi ích so với các phương pháp truyền
thống:

Không cần kiến thức lập trình: Bất kỳ ai cũng có thể sử dụng công cụ này mà không cần phải
học lập trình hoặc hiểu cấu trúc HTML.
Tiết kiệm thời gian: Quá trình cào dữ liệu được thực hiện nhanh chóng và hiệu quả hơn, giúp
bạn tiết kiệm thời gian và công sức.
Linh hoạt và dễ dàng tùy chỉnh: Bạn có thể dễ dàng thay đổi truy vấn của mình để trích xuất
các loại dữ liệu khác nhau từ các trang web khác nhau.
Miễn phí (hoặc chi phí thấp): Với các công cụ như Firw Dodev cung cấp gói miễn phí hào
phóng, bạn có thể cào dữ liệu website mà không tốn kém.

XEM THÊM: Làm Chủ N8N & AI Agents: Hướng Dẫn Tự Động Hóa Cho Người Mới Bắt Đầu

Ứng Dụng của Việc Cào Dữ Liệu Website Bằng Ngôn Ngữ Tự Nhiên

Công nghệ này có thể được ứng dụng trong nhiều lĩnh vực khác nhau:

Nghiên cứu thị trường: Thu thập thông tin về sản phẩm, giá cả và đối thủ cạnh tranh.
Phân tích dữ liệu: Trích xuất dữ liệu từ các nguồn khác nhau để phân tích và đưa ra quyết
định kinh doanh.
Tổng hợp tin tức: Thu thập tin tức từ nhiều nguồn khác nhau và tổng hợp thành một bản tin duy
nhất.
Xây dựng ứng dụng: Sử dụng dữ liệu cào được để xây dựng các ứng dụng web và di động.

Lời Khuyên Khi Sử Dụng Cào Dữ Liệu Website Bằng Ngôn Ngữ Tự Nhiên

Để đạt được kết quả tốt nhất khi sử dụng công nghệ này, hãy lưu ý những điều sau:

Đặt câu hỏi cụ thể: Càng cụ thể, công cụ càng dễ dàng tìm thấy thông tin bạn cần.
Kiểm tra kết quả: Đảm bảo rằng dữ liệu được cào là chính xác và đầy đủ.
Tuân thủ luật pháp: Luôn tuân thủ các điều khoản dịch vụ của trang web bạn đang cào và tôn
trọng quyền riêng tư của người khác.

Các Công Cụ Thay Thế Firw Dodev

Các công cụ thay thế

Mặc dù Firw Dodev là một lựa chọn tuyệt vời, nhưng có một số công cụ thay thế khác mà bạn có thể xem xét:

Apify: Một nền tảng cào dữ liệu mạnh mẽ với nhiều tính năng và tích hợp.
ParseHub: Một công cụ cào dữ liệu trực quan dễ sử dụng.
Web Scraper.io: Một tiện ích mở rộng trình duyệt cho phép bạn cào dữ liệu trực tiếp từ trình duyệt của mình.

Hãy thử nghiệm các công cụ khác nhau để tìm ra công cụ phù hợp nhất với nhu cầu của bạn.

Hy vọng bài viết này đã cung cấp cho bạn những thông tin hữu ích về cách cào dữ liệu website miễn phí bằng ngôn ngữ tự nhiên. Chúc bạn thành công

Bạn có thấy hữu ích không? Hãy cho chúng tôi +1 nhé