Ra mắt Skyvern làm dấy lên cuộc tranh luận về tự động hóa trình duyệt bằng AI trong bối cảnh Anthropic đẩy mạnh công nghệ thị giác máy tính

BigGo Editorial Team
Ra mắt Skyvern làm dấy lên cuộc tranh luận về tự động hóa trình duyệt bằng AI trong bối cảnh Anthropic đẩy mạnh công nghệ thị giác máy tính

Sự ra mắt gần đây của Skyvern, một công cụ tự động hóa trình duyệt mã nguồn mở được hỗ trợ bởi LLM và thị giác máy tính, đã làm dấy lên những cuộc thảo luận về tương lai của tự động hóa web, đặc biệt là sau thông báo về khả năng sử dụng máy tính mới của Claude từ Anthropic. Phản ứng của cộng đồng cho thấy cả sự phấn khích lẫn lo ngại về bức tranh đang phát triển của tự động hóa web được hỗ trợ bởi AI.

Cuộc chiến về phương pháp tiếp cận: HTML và Thị giác máy tính

Một cuộc tranh luận đáng kể đã nổi lên về hai phương pháp tiếp cận cạnh tranh trong tự động hóa web:

  1. Phân tích dựa trên HTML
  • Hiện tại hiệu quả hơn do giảm số lượng lệnh gọi LLM
  • Cho phép phân tích tĩnh các phần tử trang mà không cần tương tác
  • Hiệu suất tốt hơn với công nghệ hiện tại
  • Có thể truy cập các tùy chọn trong menu thả xuống mà không cần nhấp chuột
  1. Thị giác máy tính thuần túy
  • Phương pháp mới của Anthropic sử dụng tọa độ pixel
  • Giải pháp có khả năng mở rộng tốt hơn trong dài hạn
  • Khả năng thích ứng tốt hơn với những thay đổi của website
  • Loại bỏ nhu cầu ánh xạ phần tử HTML

Triển khai kỹ thuật và thách thức

Skyvern sử dụng kiến trúc đa tác tử, tách biệt khỏi các framework truyền thống như LangChain và AutoGPT. Hệ thống bao gồm các tác tử chuyên biệt cho:

  • Phân tích phần tử tương tác
  • Điều hướng
  • Trích xuất dữ liệu
  • Quản lý mật khẩu
  • Xử lý xác thực hai yếu tố
  • Tự động hoàn thành động
Ảnh chụp màn hình kho lưu trữ GitHub của Skyvern , giới thiệu dự án tự động hóa trình duyệt mã nguồn mở của họ
Ảnh chụp màn hình kho lưu trữ GitHub của Skyvern , giới thiệu dự án tự động hóa trình duyệt mã nguồn mở của họ

Ứng dụng thực tế và mối quan ngại

Cộng đồng đã xác định một số ứng dụng thực tế:

  • Tự động hóa và tải xuống hóa đơn
  • Điền form trên nhiều trang web
  • Điều hướng cổng thông tin chính phủ
  • Tự động hóa quy trình back-office

Tuy nhiên, một số mối quan ngại đã được nêu ra:

  1. Bảo mật và quyền riêng tư
  • Xử lý dữ liệu nhạy cảm như thông tin đăng nhập
  • Khả năng bị lạm dụng cho spam hoặc mục đích độc hại
  1. Độ tin cậy và xác thực
  • Cần có cơ chế tự xác thực
  • Xử lý các thay đổi và cập nhật của website
  • Kiểm tra quy trình và phát hiện lỗi
  1. Tính bền vững trong kinh doanh
  • Cạnh tranh từ các công ty lớn như Anthropic, OpenAI và Google
  • Khả năng tồn tại lâu dài của các startup phụ thuộc vào LLM bên thứ ba

Cân nhắc về chi phí

Một số người dùng đã chỉ ra rằng mặc dù tự động hóa dựa trên LLM rất mạnh mẽ, nhưng nó đi kèm với chi phí tính toán đáng kể. Ví dụ, Skyvern tính khoảng 0,10 USD cho mỗi tương tác trang, có thể trở nên tốn kém cho các hoạt động khối lượng lớn.

Phát triển trong tương lai

Đội ngũ phát triển Skyvern đã ghi nhận những thách thức này và đang làm việc về:

  • Tích hợp với LLM mã nguồn mở, đặc biệt là Llama 3.2
  • Tính năng quy trình công việc để kết nối nhiều tác vụ
  • Cải thiện cơ chế tự xác thực
  • Tối ưu hóa giao diện di động

Sự ra mắt của Skyvern đại diện cho một bước tiến quan trọng trong tự động hóa web được hỗ trợ bởi AI, nhưng phản ứng của cộng đồng cho thấy chúng ta vẫn đang ở giai đoạn đầu trong việc xác định những phương pháp tiếp cận hiệu quả và bền vững nhất cho công nghệ này.