HelixDB Ra Mắt Cơ Sở Dữ Liệu Đồ Thị-Vector Mới với Tuyên Bố Hiệu Suất Cao Gấp 1000 Lần So Với Neo4j

BigGo Editorial Team
HelixDB Ra Mắt Cơ Sở Dữ Liệu Đồ Thị-Vector Mới với Tuyên Bố Hiệu Suất Cao Gấp 1000 Lần So Với Neo4j

Làng cơ sở dữ liệu mã nguồn mở đã có thêm một đối thủ mới với sự ra mắt của HelixDB, một cơ sở dữ liệu đồ thị-vector được viết bằng Rust, được thiết kế đặc biệt cho RAG (Retrieval Augmented Generation) và các ứng dụng AI. Điều thu hút sự chú ý của cộng đồng là những tuyên bố táo bạo về hiệu suất và cách tiếp cận độc đáo trong việc kết hợp chức năng đồ thị và vector.

Trang GitHub của HelixDB này giới thiệu cấu trúc của nó như một cơ sở dữ liệu đồ thị-vector mã nguồn mở dành cho các ứng dụng AI
Trang GitHub của HelixDB này giới thiệu cấu trúc của nó như một cơ sở dữ liệu đồ thị-vector mã nguồn mở dành cho các ứng dụng AI

Tuyên Bố Về Hiệu Suất Gây Chú Ý

Các nhà phát triển HelixDB tuyên bố cơ sở dữ liệu của họ nhanh hơn 1000 lần so với Neo4j và nhanh hơn 100 lần so với TigerGraph, đồng thời ngang hàng với Qdrant về khả năng xử lý vector. Những khẳng định này đã khiến các thành viên cộng đồng yêu cầu bằng chứng, với một người dùng trực tiếp đề nghị cung cấp các bài kiểm tra để hỗ trợ cho những tuyên bố này. Đội ngũ HelixDB đã thừa nhận họ đã chạy các bài kiểm tra này nhưng chưa công bố trước khi giới thiệu dự án, và hứa sẽ bổ sung dữ liệu hiệu suất chi tiết vào tài liệu của họ.

Các tính năng chính của HelixDB

  • Nhanh & Hiệu quả: Tuyên bố nhanh hơn 1000 lần so với Neo4j, nhanh hơn 100 lần so với TigerGraph, ngang bằng với Qdrant cho dữ liệu vector
  • Ưu tiên RAG: Hỗ trợ tự nhiên cho các kiểu dữ liệu đồ thị và vector
  • Tích hợp Đồ thị-Vector: Hỗ trợ các mối quan hệ giữa các nút, vector, hoặc cả nút VÀ vector
  • Lưu trữ: Được hỗ trợ bởi LMDB (Lightning Memory-Mapped Database)
  • Tuân thủ ACID: Đảm bảo tính toàn vẹn và nhất quán của dữ liệu
  • Kích thước Vector: Hiện tại không giới hạn, giới hạn trong tương lai có thể khoảng 64.000 chiều
  • Ngôn ngữ truy vấn: DSL tùy chỉnh với tính an toàn kiểu
  • Giấy phép: AGPL (Affero General Public License)

Khả Năng Vector và Số Chiều

Cơ sở dữ liệu này dường như có hỗ trợ vector mạnh mẽ, với các nhà phát triển xác nhận hiện tại không có giới hạn về số chiều vector. Họ đề cập rằng trong tương lai có thể sẽ triển khai giới hạn khoảng 64.000 chiều, tương tự như các cơ sở dữ liệu vector khác như Qdrant và Pinecone. Nhóm phát triển cũng tiết lộ kế hoạch triển khai lượng tử hóa nhị phân trong những tháng tới để cải thiện hiệu suất với các vector có số chiều cao hơn, cho thấy sự nhận thức về những đánh đổi hiệu suất liên quan đến các hoạt động vector.

Tích Hợp Đồ Thị-Vector Tạo Nên Sự Khác Biệt

Điều khiến HelixDB khác biệt so với các đối thủ như KuzuDB là cách tiếp cận tích hợp chức năng đồ thị và vector. Theo các nhà phát triển, HelixDB hỗ trợ lập chỉ mục tăng dần trên các vector, cho phép cập nhật mà không cần phải lập chỉ mục lại toàn bộ vector. Điều này giải quyết một điểm đau với một số giải pháp hiện có, nơi chỉ mục vector hoàn toàn tách biệt với cấu trúc đồ thị, đòi hỏi phải lập chỉ mục lại toàn bộ khi có cập nhật.

Pretty much the same way you would with any graph DB, with the added benefit of being able to treat a vector as a node by creating those explicit relationships between them.

Ngôn Ngữ Truy Vấn Tùy Chỉnh Gây Tranh Luận

Ngôn ngữ truy vấn tùy chỉnh của HelixDB đã tạo ra những phản ứng trái chiều. Một số người dùng bày tỏ lo ngại về việc phải học một ngôn ngữ đặc thù mới (DSL), đặc biệt liên quan đến khả năng sử dụng nó với các mô hình LLM để tạo truy vấn. Các nhà phát triển đã bảo vệ lựa chọn này, giải thích rằng không có ngôn ngữ hiện có nào đóng gói đúng cả chức năng đồ thị và vector, và họ muốn tạo ra một ngôn ngữ truy vấn an toàn về kiểu. Họ đề cập rằng họ đang làm việc để tích hợp ngữ pháp của họ vào mã LLaMa CPP để đảm bảo các mô hình LLM có thể tạo ra các truy vấn đúng ngữ pháp trong ngôn ngữ của họ.

Khả Năng Tương Thích Với Trình Duyệt và Sử Dụng Nhúng

Nhiều người dùng đã hỏi về việc chạy HelixDB trong trình duyệt thông qua WebAssembly (WASM) cho các ứng dụng tập trung vào quyền riêng tư và về việc sử dụng nó như một cơ sở dữ liệu nhúng tương tự như SQLite. Nhóm phát triển thừa nhận rằng LMDB, công cụ lưu trữ hiện tại của họ, là một trở ngại cho khả năng tương thích với trình duyệt, nhưng đề cập rằng họ có kế hoạch phát triển công cụ lưu trữ riêng với hỗ trợ WASM. Hiện tại, HelixDB không thể chạy như một cơ sở dữ liệu nhúng, điều này giới hạn một số trường hợp sử dụng tiềm năng.

Các mục trong lộ trình phát triển

  • Mở rộng khả năng của kiểu dữ liệu vector cho các ứng dụng RAG
  • Nâng cao ngôn ngữ truy vấn với kiểm tra kiểu dữ liệu mạnh mẽ hơn
  • Triển khai bộ kiểm thử cho việc thử nghiệm truy vấn từ đầu đến cuối
  • Xây dựng công cụ kiểm thử mô phỏng có tính xác định
  • Thêm lượng tử hóa nhị phân để cải thiện hiệu suất
  • Triển khai BM25 cho tìm kiếm thưa
  • Phát triển công cụ lưu trữ đồ thị-vector nội bộ (để thay thế LMDB)
  • Tạo thư viện giao thức mạng & tuần tự hóa nội bộ

Phát Triển Tương Lai và Lộ Trình

Đội ngũ HelixDB đã phác thảo một số tính năng sắp tới, bao gồm tìm kiếm thưa thớt sử dụng BM25, với một số thành viên cộng đồng đề xuất xem xét các mô hình SPLADE để nâng cao khả năng tìm kiếm. Lộ trình của họ cũng bao gồm mở rộng khả năng vector, nâng cao ngôn ngữ truy vấn, triển khai bộ kiểm thử, xây dựng công cụ kiểm thử mô phỏng xác định, và cuối cùng là phát triển công cụ lưu trữ đồ thị-vector riêng để thay thế LMDB.

Khi HelixDB bước vào không gian ngày càng cạnh tranh của các cơ sở dữ liệu vector và đồ thị, những tuyên bố về hiệu suất và cách tiếp cận độc đáo để kết hợp các chức năng này chắc chắn đã thu hút sự chú ý. Cộng đồng dường như thận trọng lạc quan, với nhiều người bày tỏ sự quan tâm đến việc thử nghiệm cơ sở dữ liệu và cung cấp phản hồi. Cách HelixDB sẽ tự phân biệt mình trong dài hạn so với các đối thủ đã thiết lập và những người mới tham gia khác vẫn còn phải xem xét, nhưng sự tập trung vào trải nghiệm nhà phát triển và hiệu suất cho các ứng dụng AI dường như đang thu hút người dùng tiềm năng.

Tham khảo: HelixDB/helix-db