Sự ra mắt gần đây của Skyvern, một công cụ tự động hóa trình duyệt mã nguồn mở được hỗ trợ bởi LLM và thị giác máy tính, đã làm dấy lên những cuộc thảo luận về tương lai của tự động hóa web, đặc biệt là sau thông báo về khả năng sử dụng máy tính mới của Claude từ Anthropic. Phản ứng của cộng đồng cho thấy cả sự phấn khích lẫn lo ngại về bức tranh đang phát triển của tự động hóa web được hỗ trợ bởi AI.
Cuộc chiến về phương pháp tiếp cận: HTML và Thị giác máy tính
Một cuộc tranh luận đáng kể đã nổi lên về hai phương pháp tiếp cận cạnh tranh trong tự động hóa web:
- Phân tích dựa trên HTML
- Hiện tại hiệu quả hơn do giảm số lượng lệnh gọi LLM
- Cho phép phân tích tĩnh các phần tử trang mà không cần tương tác
- Hiệu suất tốt hơn với công nghệ hiện tại
- Có thể truy cập các tùy chọn trong menu thả xuống mà không cần nhấp chuột
- Thị giác máy tính thuần túy
- Phương pháp mới của Anthropic sử dụng tọa độ pixel
- Giải pháp có khả năng mở rộng tốt hơn trong dài hạn
- Khả năng thích ứng tốt hơn với những thay đổi của website
- Loại bỏ nhu cầu ánh xạ phần tử HTML
Triển khai kỹ thuật và thách thức
Skyvern sử dụng kiến trúc đa tác tử, tách biệt khỏi các framework truyền thống như LangChain và AutoGPT. Hệ thống bao gồm các tác tử chuyên biệt cho:
- Phân tích phần tử tương tác
- Điều hướng
- Trích xuất dữ liệu
- Quản lý mật khẩu
- Xử lý xác thực hai yếu tố
- Tự động hoàn thành động
![]() |
---|
Ảnh chụp màn hình kho lưu trữ GitHub của Skyvern , giới thiệu dự án tự động hóa trình duyệt mã nguồn mở của họ |
Ứng dụng thực tế và mối quan ngại
Cộng đồng đã xác định một số ứng dụng thực tế:
- Tự động hóa và tải xuống hóa đơn
- Điền form trên nhiều trang web
- Điều hướng cổng thông tin chính phủ
- Tự động hóa quy trình back-office
Tuy nhiên, một số mối quan ngại đã được nêu ra:
- Bảo mật và quyền riêng tư
- Xử lý dữ liệu nhạy cảm như thông tin đăng nhập
- Khả năng bị lạm dụng cho spam hoặc mục đích độc hại
- Độ tin cậy và xác thực
- Cần có cơ chế tự xác thực
- Xử lý các thay đổi và cập nhật của website
- Kiểm tra quy trình và phát hiện lỗi
- Tính bền vững trong kinh doanh
- Cạnh tranh từ các công ty lớn như Anthropic, OpenAI và Google
- Khả năng tồn tại lâu dài của các startup phụ thuộc vào LLM bên thứ ba
Cân nhắc về chi phí
Một số người dùng đã chỉ ra rằng mặc dù tự động hóa dựa trên LLM rất mạnh mẽ, nhưng nó đi kèm với chi phí tính toán đáng kể. Ví dụ, Skyvern tính khoảng 0,10 USD cho mỗi tương tác trang, có thể trở nên tốn kém cho các hoạt động khối lượng lớn.
Phát triển trong tương lai
Đội ngũ phát triển Skyvern đã ghi nhận những thách thức này và đang làm việc về:
- Tích hợp với LLM mã nguồn mở, đặc biệt là Llama 3.2
- Tính năng quy trình công việc để kết nối nhiều tác vụ
- Cải thiện cơ chế tự xác thực
- Tối ưu hóa giao diện di động
Sự ra mắt của Skyvern đại diện cho một bước tiến quan trọng trong tự động hóa web được hỗ trợ bởi AI, nhưng phản ứng của cộng đồng cho thấy chúng ta vẫn đang ở giai đoạn đầu trong việc xác định những phương pháp tiếp cận hiệu quả và bền vững nhất cho công nghệ này.