Sau sự ra mắt của công cụ tự động hóa web mã nguồn mở Browser-Use dựa trên Mô hình Ngôn ngữ Lớn (LLM), cộng đồng lập trình viên đã có cuộc thảo luận sôi nổi về phương pháp tối ưu cho việc tự động hóa web dựa trên LLM. Cuộc thảo luận chủ yếu tập trung vào việc cân nhắc ưu nhược điểm giữa phương pháp dựa trên screenshot và HTML cho tương tác web.
Thách thức giữa Screenshot và HTML
Phần lớn cuộc thảo luận của cộng đồng xoay quanh hiệu quả của việc sử dụng screenshot so với HTML làm dữ liệu đầu vào cho LLM. Mặc dù screenshot được đánh giá là kém chính xác và ít ngữ cảnh hơn HTML, chúng lại mang đến những lợi thế thực tế. Theo phản hồi từ cộng đồng, việc xử lý screenshot rẻ hơn khoảng 100 lần so với file HTML+CSS đầy đủ. Một hình ảnh độ phân giải thấp 1280x1024 với GPT-4 có chi phí khoảng 0.0002 USD, trong khi hình ảnh độ phân giải cao có giá khoảng 0.002 USD, theo ghi nhận của người tạo dự án.
Cân nhắc về sử dụng Token và chi phí
Cộng đồng chỉ ra một điểm nghẽn quan trọng trong phương pháp dựa trên HTML: độ dài ngữ cảnh và chi phí API. Với một kịch bản điển hình bao gồm tin nhắn trước đó, system prompt, văn bản trích xuất và các phần tử tương tác, các nhà phát triển đã phải đối mặt với khoảng 2,500 token (tương đương 0.01 USD với GPT-4). Khi thêm toàn bộ file HTML và CSS, chi phí và thời gian xử lý có thể tăng gấp mười lần.
Hiệu suất và độ tin cậy
Một phát hiện thú vị từ cuộc thảo luận đến từ một cựu nhân viên FAANG, người đã chia sẻ kết quả nghiên cứu nội bộ. Theo kinh nghiệm của họ, mặc dù cả hai phương pháp đều hữu ích, screenshot có hiệu suất kém hơn một chút so với HTML. Tỷ lệ thành công trong việc hoàn thành nhiệm vụ dao động từ 20-40%, với mỗi lần hoàn thành nhiệm vụ đầy đủ đại diện cho một chuỗi sản phẩm của các tỷ lệ này.
Tương lai của tự động hóa web
Cộng đồng đang tích cực thảo luận về tương lai của tương tác web, đặc biệt là khi xem xét kịch bản tương tác của agent có thể vượt quá tương tác của con người trong vòng một năm. Hai hướng đi tiềm năng đang được thảo luận:
- Các trang web phát triển thêm các chức năng API dành riêng cho agent
- Sự xuất hiện của các dịch vụ bên thứ ba chuyển đổi giao diện người dùng thành các hàm có thể gọi được bởi agent với khả năng lưu trữ cache
Góc nhìn thay thế từ CLI
Một cách tiếp cận thay thế thú vị được các thành viên cộng đồng đề xuất là tập trung vào tự động hóa dựa trên CLI thay vì tự động hóa GUI. Lập luận tập trung vào việc tương tác CLI trực tiếp, hiệu quả và đáng tin cậy hơn, vì chúng xử lý đầu ra văn bản có cấu trúc thay vì các yếu tố trực quan. Phương pháp này cũng cung cấp khả năng chạy song song tốt hơn, vì nhiều shell CLI có thể chạy đồng thời, khác với giới hạn một instance của tự động hóa GUI.
Thách thức trong triển khai thực tế
Cộng đồng đã xác định một số thách thức thực tế trong việc triển khai tự động hóa web, bao gồm:
- Xử lý Captcha và hệ thống xác minh con người
- Giới hạn của tiện ích mở rộng trình duyệt
- Tối ưu hóa việc sử dụng token
- Nhu cầu về khung kiểm thử và đánh giá chuẩn hóa
Hướng phát triển
Khi lĩnh vực tự động hóa web với LLM tiếp tục phát triển, cộng đồng nhấn mạnh tầm quan trọng của việc phát triển các khung kiểm thử mạnh mẽ và tạo ra các tài nguyên chia sẻ cho kỹ thuật prompt. Ngày càng có nhiều sự quan tâm đến việc tạo ra một wiki hoặc kho lưu trữ các công thức prompt do cộng đồng tạo ra cho các hành động cụ thể, tương tự như thư viện component trong phát triển web.
Cuộc tranh luận và phát triển đang diễn ra trong lĩnh vực này nhấn mạnh sự phức tạp của tự động hóa web và các phương pháp tiếp cận khác nhau đang được cộng đồng lập trình viên khám phá. Mặc dù chưa có sự đồng thuận rõ ràng về phương pháp tối ưu, cuộc thảo luận tiếp tục thúc đẩy đổi mới và cải tiến trong lĩnh vực đang phát triển nhanh chóng này.