Sự phát triển mạnh mẽ của các Mô hình Ngôn ngữ Lớn ( LLM ) đã làm dấy lên sự quan tâm mới đối với các công cụ chuyển đổi HTML sang Markdown, khi các nhà phát triển tìm kiếm cách hiệu quả để xử lý nội dung web trong giới hạn token. Một công cụ chuyển đổi mạnh mẽ dựa trên ngôn ngữ Go đã nổi lên như một giải pháp đáng chú ý, cung cấp cả thư viện và dịch vụ API để chuyển đổi nội dung HTML thành Markdown sạch và dễ đọc.
Đoạn mã này minh họa một hàm trong Go để đăng ký một trình kết xuất tùy chỉnh trong bộ chuyển đổi từ HTML sang Markdown |
Hiệu quả Token cho xử lý LLM
Một trong những lợi ích hấp dẫn nhất của việc chuyển đổi HTML sang Markdown cho xử lý LLM là việc giảm đáng kể lượng token sử dụng. Như đã được chứng minh qua kiểm thử cộng đồng:
Sử dụng https://tools.simonwillison.net/jina-reader để lấy trang chủ https://news.ycombinator.com/ dưới dạng Markdown và dán vào https://tools.simonwillison.net/claude-token-counter - 1550 token. Cùng nội dung đó ở dạng HTML: 13367 token.
Sự chênh lệch lớn về số lượng token này khiến việc chuyển đổi sang Markdown trở nên đặc biệt có giá trị cho các nhà phát triển làm việc với những hạn chế về ngữ cảnh của LLM.
Ứng dụng thực tế
Các nhà phát triển đã tìm ra những cách sáng tạo để tích hợp chuyển đổi HTML sang Markdown vào quy trình làm việc của họ. Một ứng dụng đáng chú ý là việc sử dụng các hàm Lambda để tự động chuyển đổi các trang web đã đánh dấu thành Markdown để lưu trữ trong S3, giúp nội dung dễ dàng truy cập cho các công cụ như Obsidian. Phương pháp này đặc biệt hữu ích cho việc quản lý kiến thức cá nhân và lưu trữ nội dung.
Tính khả dụng của API và Thách thức về quy mô
Mặc dù có các giải pháp API miễn phí, nhưng các thách thức về quy mô đã xuất hiện. Người duy trì dự án đã phải triển khai yêu cầu khóa API sau khi phát hiện việc lạm dụng khoảng 5 triệu yêu cầu mỗi ngày trên dịch vụ demo của họ, cho thấy sự cần thiết của việc giới hạn sử dụng hợp lý trong các API công cộng.
Tích hợp với tự động hóa trình duyệt
Đối với các trang web sử dụng nhiều JavaScript, cộng đồng khuyến nghị kết hợp chuyển đổi HTML sang Markdown với các công cụ tự động hóa trình duyệt như Playwright hoặc Puppeteer. Cách tiếp cận này đảm bảo trích xuất nội dung chính xác từ các trang web động trước khi chuyển đổi sang Markdown.
Phát triển trong tương lai
Cộng đồng đã xác định một số lĩnh vực cần cải thiện, bao gồm:
- Loại bỏ trùng lặp N-gram để xóa nội dung header và footer lặp lại
- Xử lý tốt hơn các trường hợp đặc biệt trên các trang web khác nhau
- Tích hợp với các thuật toán trích xuất nội dung tương tự như Readability của Mozilla
- Nâng cao hỗ trợ cho việc hiển thị nội dung động
Những công cụ này tiếp tục phát triển khi nhu cầu của các ứng dụng LLM tăng lên, giúp nội dung web dễ tiếp cận và xử lý hơn cho các hệ thống AI trong khi vẫn duy trì hiệu quả sử dụng token.
Nguồn: html-to-markdown Nguồn: Discussion Thread