Cộng đồng mã nguồn mở đang tích cực thảo luận về Cerebellum, một hệ thống tự động hóa web mới dựa trên AI sử dụng Claude 3.5 Sonnet để tương tác với trình duyệt. Mặc dù công cụ này cho thấy nhiều triển vọng, các thành viên cộng đồng đã nêu lên những câu hỏi quan trọng về việc thu thập dữ liệu, quyền riêng tư và hỗ trợ mô hình cục bộ.
Quan ngại về thu thập dữ liệu và quyền riêng tư
Một điểm thảo luận quan trọng trong cộng đồng xoay quanh kế hoạch tương lai của Cerebellum về việc thu thập dữ liệu phiên duyệt web từ cộng đồng. Theo phản hồi của Han Wang trên GitHub, dự án này hướng tới việc triển khai chức năng chuyển đổi BrowserStep[] thành định dạng tệp tin di động và tạo các tệp .jsonl tương thích với thư viện transformers. Tuy nhiên, các thành viên cộng đồng đã nêu lên những lo ngại chính đáng về thông tin nhận dạng cá nhân (PII) trong các trường hợp xác thực, khi dự án hiện thiếu các tính năng ẩn danh tích hợp.
Thách thức tích hợp mô hình cục bộ
Khả năng sử dụng các mô hình cục bộ với Cerebellum đã nổi lên như một chủ đề nóng khác. Người duy trì dự án đã làm rõ rằng các mô hình cục bộ hiện tại thiếu khả năng phân đoạn mạnh mẽ cần thiết cho tọa độ x và y, khiến chúng không phù hợp cho nhiệm vụ này. Mặc dù một số thành viên cộng đồng đã đề xuất các giải pháp tiềm năng sử dụng giao thức WebDriver của Selenium và sửa đổi DOM, những giải pháp này vẫn đang trong giai đoạn thử nghiệm và cần phát triển thêm.
Triển khai kỹ thuật
Hiện tại, Cerebellum dựa vào Selenium WebDriver v4 để tương tác với trình duyệt, với các ảnh chụp màn hình được truyền dưới dạng hình ảnh thông qua giao thức WebDriver. Một thành viên cộng đồng đã đề xuất một phương pháp tiềm năng liên quan đến việc sửa đổi DOM trước khi chụp màn hình, mặc dù điều này sẽ đòi hỏi việc triển khai cẩn thận để duy trì chức năng.
Lộ trình phát triển tương lai
Lộ trình của dự án chỉ ra kế hoạch giải quyết những quan ngại của cộng đồng, với các mục tiêu bao gồm:
- Tạo chức năng lưu phiên duyệt web như các bộ dữ liệu huấn luyện
- Phát triển và tích hợp mô hình cục bộ với các khả năng cần thiết
- Cải thiện hiệu suất hệ thống và trải nghiệm người dùng
- Mở rộng hỗ trợ LLM ngoài Claude 3.5 Sonnet
Kết luận
Mặc dù Cerebellum thể hiện một cách tiếp cận sáng tạo đối với tự động hóa web dựa trên AI, cuộc thảo luận của cộng đồng nhấn mạnh những cân nhắc quan trọng về quyền riêng tư dữ liệu và hỗ trợ mô hình cục bộ cần được giải quyết khi dự án phát triển. Sự tương tác tích cực giữa các nhà phát triển và người dùng cho thấy một con đường hợp tác trong việc giải quyết những thách thức này.