Morphik: Giải pháp RAG mã nguồn mở cho tài liệu kỹ thuật làm dấy lên cuộc tranh luận về tự lưu trữ

BigGo Editorial Team
Morphik: Giải pháp RAG mã nguồn mở cho tài liệu kỹ thuật làm dấy lên cuộc tranh luận về tự lưu trữ

Morphik đã nổi lên như một giải pháp thay thế đầy hứa hẹn cho các hệ thống Retrieval-Augmented Generation (RAG) truyền thống, được thiết kế đặc biệt cho các tài liệu kỹ thuật cao và trực quan. Nền tảng này đã tạo ra nhiều thảo luận đáng kể trong cộng đồng nhà phát triển, đặc biệt là về bản chất mã nguồn mở và khả năng tự lưu trữ của nó.

Làm rõ về tính năng mã nguồn mở và tính năng trả phí

Mô hình cấp phép của Morphik đã trở thành tâm điểm thảo luận của cộng đồng. Mặc dù được tiếp thị là mã nguồn mở theo giấy phép MIT Expat, người dùng đã chỉ ra một số điểm khác biệt trong cấu trúc cấp phép. Chức năng cốt lõi, bao gồm API, SDK và logic backend, thực sự được cấp phép MIT, nhưng một số tính năng nhất định như giao diện người dùng Morphik Console lại thuộc không gian tên doanh nghiệp (ee) với các điều khoản cấp phép khác.

Một thành viên cộng đồng đã lưu ý sự khác biệt này, khiến đại diện của Morphik phải làm rõ:

Chúng tôi lẽ ra nên rõ ràng hơn. Phần trong ee là giao diện người dùng của chúng tôi, có thể được sử dụng để kiểm tra hoặc trong môi trường phát triển. Mã chính, bao gồm API, SDK và toàn bộ logic backend đều theo giấy phép MIT expat.

Sự phân biệt này rất quan trọng đối với các nhà phát triển đang xem xét áp dụng, vì nó ảnh hưởng đến việc những thành phần nào có thể được sử dụng và sửa đổi miễn phí so với những thành phần có thể yêu cầu giấy phép thương mại.

Tính năng chính của Morphik

  • Tìm kiếm đa phương thức: Sử dụng các kỹ thuật như ColPali để hiểu nội dung hình ảnh trong tài liệu
  • Đồ thị kiến thức: Xây dựng đồ thị kiến thức chuyên ngành với lời nhắc hệ thống có thể tùy chỉnh
  • Trích xuất siêu dữ liệu: Trích xuất siêu dữ liệu bao gồm hộp giới hạn, nhãn và phân loại
  • Tích hợp: Hoạt động với Google Suite, Slack, Confluence và các công cụ khác
  • Tạo tăng cường bộ nhớ đệm: Tạo bộ nhớ đệm KV liên tục để tăng tốc quá trình tạo

Cấu trúc giấy phép

  • Giấy phép MIT Expat: Chức năng cốt lõi, API, SDK, logic phía sau
  • Giấy phép doanh nghiệp: Các thành phần giao diện người dùng (Morphik Console) và các tính năng trong không gian tên "ee"

Các tùy chọn triển khai

  • Dịch vụ đám mây: Gói miễn phí với 200 trang và 100 truy vấn, sau đó trả tiền theo mức sử dụng
  • Tự lưu trữ: Có thể được cài đặt trực tiếp hoặc thông qua Docker, hỗ trợ có giới hạn
  • Suy luận cục bộ: Tương thích với Ollama, các mô hình được khuyến nghị bao gồm Llama 3.2 8B hoặc lớn hơn

Khả năng và yêu cầu tự lưu trữ

Một phần đáng kể trong cuộc thảo luận của cộng đồng tập trung vào các tùy chọn tự lưu trữ. Nhiều nhà phát triển bày tỏ sự quan tâm đến việc chạy Morphik cục bộ thay vì sử dụng phiên bản đám mây, đặc biệt là để xử lý các tài liệu nhạy cảm. Nền tảng này có thể được chạy hoàn toàn cục bộ bằng cách sử dụng Ollama cho suy luận, mặc dù hiệu suất phụ thuộc vào phần cứng và mô hình được sử dụng.

Để có kết quả tối ưu với các tài liệu kỹ thuật, phản hồi từ cộng đồng gợi ý sử dụng các mô hình lớn hơn như Llama 3.2 8B, với sự đồng thuận chung là mô hình càng lớn càng tốt cho việc xử lý tài liệu phức tạp. Tuy nhiên, yêu cầu tính toán cụ thể và giới hạn mở rộng cho việc tự lưu trữ Morphik vẫn là câu hỏi đối với nhiều người dùng tiềm năng.

Một người dùng đã đề cập cụ thể về mong muốn có cách để đưa tất cả tài liệu riêng tư vào cơ sở dữ liệu và có tính năng tìm kiếm/RAG hoạt động với chúng cục bộ, tốt nhất là theo cách không phụ thuộc vào backend LLM, nhấn mạnh mong muốn phổ biến về các giải pháp cục bộ bảo vệ quyền riêng tư.

Khả năng kỹ thuật và trường hợp sử dụng

Kiến trúc của Morphik đã thu hút sự chú ý nhờ cách tiếp cận xử lý tài liệu. Nền tảng này chuẩn hóa các thực thể và mối quan hệ thành đồ thị kiến thức cho RAG, điều mà các thành viên cộng đồng thấy đầy hứa hẹn. Hai con đường tiếp nhận—OCR thông thường với nhúng văn bản và Colpali—cung cấp tính linh hoạt cho các loại tài liệu khác nhau.

Xử lý bảng, một điểm khó khăn phổ biến trong các hệ thống xử lý tài liệu, dường như được Morphik giải quyết tốt. Theo phản hồi của nhà phát triển, con đường Colpali làm việc tốt hơn nhiều với các bảng vì nó có thể mã hóa các yếu tố vị trí và bố cục, làm cho nó phù hợp với các định dạng tài liệu phức tạp.

Người dùng cũng đang khám phá các trường hợp sử dụng chuyên biệt, chẳng hạn như xử lý các slide trình bày hội nghị so với các bài báo học thuật, và trích xuất các hộp giới hạn từ PDF. Khả năng điều chỉnh trích xuất thực thể và ánh xạ mối quan hệ cho các lĩnh vực cụ thể (như dược phẩm) đã được nhấn mạnh là một tính năng có giá trị.

Đối với các loại tài liệu đơn giản hơn, các thành viên cộng đồng lưu ý rằng các giải pháp RAG truyền thống được xây dựng trên cơ sở dữ liệu vector có thể đủ, cho thấy Morphik mang lại giá trị cao nhất cho các tài liệu phức tạp, đa phương thức với bảng, hình ảnh và bố cục phức tạp.

Khi công nghệ xử lý tài liệu và RAG tiếp tục phát triển, cách tiếp cận của Morphik trong việc xử lý nội dung trực quan và kỹ thuật đại diện cho một sự phát triển thú vị trong việc làm cho các tài liệu phức tạp dễ tiếp cận hơn với các hệ thống AI. Sự cân bằng giữa khả năng tiếp cận mã nguồn mở và các tính năng thương mại có thể sẽ vẫn là một yếu tố quan trọng đối với những người áp dụng tiềm năng khi đánh giá nền tảng dựa trên nhu cầu cụ thể của họ.

Tham khảo: morphik

Ảnh chụp màn hình kho lưu trữ GitHub của Morphik, minh họa nỗ lực hợp tác trong việc phát triển các khả năng kỹ thuật của nó
Ảnh chụp màn hình kho lưu trữ GitHub của Morphik, minh họa nỗ lực hợp tác trong việc phát triển các khả năng kỹ thuật của nó