Bảng xếp hạng OCR OmniAl mới được phát hành gần đây đã tạo ra nhiều thảo luận trong cộng đồng AI, với các mô hình Qwen2.5-VL của Alibaba nổi lên như những người thực hiện xuất sắc trong các tác vụ nhận dạng ký tự quang học. Bảng xếp hạng đánh giá cả các nhà cung cấp OCR truyền thống và các mô hình ngôn ngữ đa phương thức về khả năng trích xuất văn bản và dữ liệu có cấu trúc từ tài liệu.
Các Mô Hình Qwen2.5-VL Thể Hiện Hiệu Suất Ấn Tượng
Các mô hình Qwen2.5-VL, đặc biệt là các biến thể 32B và 72B, đã thể hiện khả năng OCR đáng kinh ngạc theo phản hồi từ cộng đồng. Những mô hình này không chỉ xuất sắc trong việc trích xuất văn bản mà còn cung cấp chức năng xác định khung hình—một tính năng truyền thống thường gắn với các công cụ OCR chuyên dụng hơn là các mô hình đa phương thức đa năng. Khả năng này cho phép các mô hình xác định vị trí chính xác của văn bản trong hình ảnh, điều này rất quan trọng cho quy trình xác minh và sửa lỗi.
Thực tế, qwen 2.5 được huấn luyện để cung cấp các khung hình giới hạn
Chức năng xác định khung hình này đại diện cho một bước tiến đáng kể, vì nó giải quyết một trong những hạn chế chính đã ngăn cản việc áp dụng rộng rãi hơn các giải pháp OCR dựa trên LLM trong môi trường sản xuất. Đối với các ứng dụng yêu cầu xác minh của con người, khả năng nhanh chóng xác định vị trí văn bản trong tài liệu gốc cải thiện đáng kể hiệu quả quy trình làm việc.
|  |
---|
*từ tiếng Anh sang tiếng Việt, tuân thủ các quy tắc đã nêu. |
Lưu đồ minh họa phương pháp xử lý văn bản và vai trò của các mô hình học máy trong đánh giá tài liệu
Cân Nhắc về Chi Phí và Hiệu Suất
Theo dữ liệu đánh giá được chia sẻ trong các bình luận, các mô hình cho thấy sự đánh đổi thú vị giữa chi phí và hiệu suất. Mô hình Qwen 32B xử lý tài liệu với chi phí khoảng 0,33 đô la Mỹ cho 1000 trang với độ trễ 53 giây mỗi trang, trong khi Qwen 72B lớn hơn có chi phí khoảng 0,71 đô la Mỹ cho 1000 trang với độ trễ tương tự. Để so sánh, Llama 90B cho thấy chi phí cao hơn đáng kể ở mức 8,50 đô la Mỹ cho 1000 trang.
Cộng đồng đã lưu ý rằng giá cả có thể thay đổi đáng kể tùy thuộc vào nhà cung cấp dịch vụ lưu trữ, khiến việc so sánh chi phí tiêu chuẩn trở nên khó khăn. Các mô hình như Mistral cung cấp xử lý nhanh hơn (3 giây mỗi trang) với mức giá cạnh tranh (1,00 đô la Mỹ cho 1000 trang), làm nổi bật các lựa chọn đa dạng có sẵn cho các nhà phát triển.
Chỉ số Hiệu suất Mô hình
Mô hình | Chi phí (trên 1000 trang) | Độ trễ (mỗi trang) |
---|---|---|
Qwen 32B | $0.33 | 53 giây |
Qwen 72B | $0.71 | 51 giây |
Llama 90B | $8.50 | 44 giây |
Llama 11B | $0.21 | 8 giây |
Gemma 27B | $0.25 | 22 giây |
Mistral | $1.00 | 3 giây |
Lưu ý: Chi phí có thể thay đổi tùy thuộc vào nhà cung cấp dịch vụ lưu trữ
Sự Cạnh Tranh Ngày Càng Tăng trong AI Đa Phương Thức
Các thành viên cộng đồng đã bày tỏ sự ngạc nhiên về tốc độ phát triển nhanh chóng của các mô hình Qwen trong các tác vụ liên quan đến thị giác. Nhiều người dùng báo cáo rằng các mô hình Qwen2.5-VL mới nhất không chỉ cải thiện so với các phiên bản tiền nhiệm mà còn thể hiện sự ổn định và dễ dàng tinh chỉnh hơn. Một số người dùng thậm chí còn cho rằng mô hình Qwen 2.5 VL 72B hiện có thể cạnh tranh với Gemini của Google cho các tác vụ thị giác tổng quát, xếp thứ hai chỉ sau GPT-4o của OpenAI.
Điều làm cho điều này đặc biệt đáng chú ý là các mô hình này có thể được chạy cục bộ, cung cấp một giải pháp mã nguồn mở thay thế cho các giải pháp độc quyền. Tùy chọn triển khai cục bộ này đặc biệt có giá trị cho các ứng dụng có yêu cầu về quyền riêng tư hoặc những ứng dụng cần xử lý tài liệu nhạy cảm mà không cần gửi dữ liệu đến các API bên ngoài.
Ứng Dụng Thực Tế và Hạn Chế
Người dùng đã báo cáo thành công với các mô hình này trong nhiều ứng dụng thực tế, bao gồm trích xuất văn bản từ thẻ trò chơi bàn để chuyển đổi văn bản thành giọng nói và xử lý tài liệu kinh doanh. Tuy nhiên, cuộc thảo luận của cộng đồng cũng nhấn mạnh rằng đối với các ứng dụng quan trọng yêu cầu độ chính xác trên 95%, việc xác minh của con người vẫn là cần thiết.
Bản thân bảng xếp hạng vượt ra ngoài đánh giá OCR đơn giản, tập trung vào khả năng của các mô hình trong việc trích xuất dữ liệu JSON có cấu trúc từ tài liệu—một tác vụ kết hợp khả năng OCR với hiểu biết ngữ nghĩa. Điều này phản ánh xu hướng ngày càng tăng hướng tới các hệ thống xử lý tài liệu đầu cuối có thể trực tiếp trích xuất thông tin có cấu trúc thay vì chỉ đơn thuần phiên âm văn bản.
Khi các mô hình mã nguồn mở này tiếp tục cải thiện, chúng ngày càng thách thức các giải pháp độc quyền trong các tác vụ xử lý tài liệu mà trước đây từng bị thống trị bởi các nhà cung cấp OCR chuyên biệt. Đối với các nhà phát triển và doanh nghiệp làm việc với tự động hóa tài liệu, sự tiến bộ nhanh chóng của các mô hình này mang lại những lựa chọn mới đầy hứa hẹn để xây dựng các quy trình xử lý tài liệu có khả năng cao hơn và hiệu quả về chi phí.
Tham khảo: OmniAl OCR Benchmark
![]() |
---|
So sánh giữa tài liệu nguồn và tài liệu chuẩn, làm nổi bật việc đánh giá độ chính xác của OCR trong xử lý tài liệu |