Một công cụ khám phá dữ liệu GitHub mới đã xuất hiện, kết hợp sức mạnh của Relta và assistant-ui để cung cấp cho các lập trình viên một cách thức thay thế để truy cập và phân tích dữ liệu kho lưu trữ GitHub. Dự án này, dù vẫn đang trong giai đoạn thử nghiệm, đã làm dấy lên nhiều cuộc thảo luận về tính hữu ích và các ứng dụng tiềm năng trong cộng đồng lập trình viên.
Nâng cao khả năng truy cập dữ liệu vượt ra ngoài giao diện GitHub tiêu chuẩn
Công cụ này nổi bật với việc tận dụng GitHub GraphQL API để truy cập dữ liệu kho lưu trữ không dễ dàng có được thông qua giao diện GitHub.com tiêu chuẩn. Hiện tại hỗ trợ dữ liệu PR, Issues, Commit và Star, nền tảng này hứa hẹn sẽ mở rộng phạm vi dữ liệu theo thời gian. Một lợi thế kỹ thuật chính nằm ở khả năng xử lý các giới hạn API, đặc biệt là giới hạn truy vấn 100 mục và các giới hạn tỷ lệ phụ thường gây khó khăn cho các lập trình viên làm việc trực tiếp với API.
API graphql của GitHub giới hạn truy vấn 100 mục cùng một lúc và có các giới hạn tỷ lệ phụ khá mơ hồ. Việc xây dựng điều này với cURL sẽ tốn nhiều công sức. dlt xử lý tất cả những phức tạp này để thiết lập một pipeline mạnh mẽ bằng cách cung cấp một connector đến GitHub API.
Yêu cầu hệ thống:
- Python phiên bản 3.9 trở lên
- Trình quản lý gói npm hoặc Node.js
- Git
- Khóa API của OpenAI
- Kết nối cơ sở dữ liệu PostgreSQL
Phạm vi dữ liệu hiện tại:
- Pull Requests
- Issues
- Commits
- Dữ liệu Star
Đổi mới kỹ thuật trong xử lý dữ liệu
Nền tảng này giới thiệu một số cải tiến công nghệ trong việc xử lý và trình bày dữ liệu. Nó sử dụng các lớp ngữ nghĩa để xử lý tập dữ liệu quan hệ và triển khai các pipeline text-to-SQL để ngăn chặn hiện tượng ảo hóa dữ liệu. Cách tiếp cận này nhằm đảm bảo độ chính xác cao trong các phản hồi truy vấn trong khi vẫn duy trì tương tác thân thiện với người dùng thông qua xử lý ngôn ngữ tự nhiên.
Tính năng tập trung vào lập trình viên
Một khía cạnh đáng chú ý của dự án là thời gian phát triển nhanh chóng - khoảng 10 ngày - đạt được thông qua việc tích hợp nhiều công nghệ bao gồm dlt, Relta, LangGraph và assistant-ui. Nền tảng bao gồm giao diện chat với khả năng tạo biểu đồ, giúp việc trực quan hóa dữ liệu dễ dàng hơn cho người dùng. Ngoài ra, hệ thống còn tích hợp cơ chế phản hồi, cho phép lập trình viên cải thiện lớp ngữ nghĩa thông qua tương tác đơn giản bằng nút dislike khi câu trả lời cần được tinh chỉnh.
Một ảnh chụp màn hình của kho lưu trữ GitHub cho " github-assistant ", thể hiện cấu trúc và tổ chức của nó, bao gồm các phần như Mã nguồn, Vấn đề, và Người đóng góp |
Phát triển trong tương lai
Nhóm phát triển đã cho biết kế hoạch mở mã nguồn Relta trong tương lai, với mã nguồn đã được chia sẻ trong cả các dự án thương mại và phi thương mại. Điều này đã thu hút sự quan tâm từ các lập trình viên muốn tích hợp các chức năng tương tự vào dự án của họ, chẳng hạn như công cụ kiểm duyệt AI và hệ thống phân tích kho lưu trữ.
Dự án này đại diện cho một bước tiến trong việc làm cho dữ liệu GitHub dễ tiếp cận và phân tích hơn, mặc dù triển khai hiện tại chủ yếu tập trung vào dữ liệu API thay vì phân tích mã hoặc giải thích kiến trúc kho lưu trữ. Khi nền tảng phát triển, phản hồi từ cộng đồng tiếp tục định hình hướng phát triển và bộ tính năng của nó.
Tham khảo: github-assistant