Khung Kiểm Thử AI của Magnitude Làm Dấy Lên Tranh Luận về Tính Xác Định và Khả Năng Thích Ứng

BigGo Editorial Team
Khung Kiểm Thử AI của Magnitude Làm Dấy Lên Tranh Luận về Tính Xác Định và Khả Năng Thích Ứng

Sự xuất hiện của các công cụ kiểm thử dựa trên AI đang định hình lại cách các nhà phát triển tiếp cận đảm bảo chất lượng cho các ứng dụng web. Magnitude, một khung kiểm thử mã nguồn mở sử dụng các tác nhân AI trực quan, gần đây đã làm dấy lên nhiều thảo luận đáng kể giữa các nhà phát triển về sự cân bằng giữa kiểm thử xác định và khả năng thích ứng của AI.

Kiến Trúc Hai Mô Hình: Lập Kế Hoạch và Thực Thi

Cốt lõi của phương pháp của Magnitude là sự tách biệt rõ ràng giữa các chức năng lập kế hoạch và thực thi. Khung này sử dụng hai mô hình AI khác nhau: một bộ lập kế hoạch (thường là mô hình lớn hơn, mạnh mẽ hơn như Gemini 2.5 Pro) phát triển chiến lược kiểm thử tổng thể, và một bộ thực thi (Moondream, một mô hình nhỏ hơn với 2B tham số) xử lý các tương tác UI thực tế với độ chính xác ở mức pixel.

Kiến trúc này giải quyết một thách thức cơ bản trong kiểm thử dựa trên AI: làm thế nào để các bài kiểm tra vừa có khả năng thích ứng vừa nhất quán. Như đã được giải thích bởi đội ngũ Magnitude trong các cuộc thảo luận cộng đồng, bộ lập kế hoạch xây dựng một kế hoạch tổng thể mà bộ thực thi sẽ chạy. Đổi mới chính là kế hoạch này có thể được lưu lại và chạy lại chỉ bằng bộ thực thi cho các bài kiểm tra tiếp theo, giúp các lần chạy lặp lại nhanh hơn, rẻ hơn và nhất quán hơn.

Điều thú vị là chúng ta có thể lưu lại kế hoạch thực thi mà mô hình lớn đưa ra và chạy CHỈ với Moondream nếu kế hoạch đủ cụ thể. Sau đó chuyển lại sang mô hình lớn nếu một số đường dẫn hành động cần điều chỉnh.

Khi có những thay đổi giao diện có thể phá vỡ các bài kiểm tra truyền thống, hệ thống có thể động chuyển về mô hình lập kế hoạch để điều chỉnh chiến lược kiểm thử, cung cấp sự kết hợp giữa tính nhất quán và khả năng thích ứng mà các khung kiểm thử truyền thống khó đạt được.

Kiến trúc Kiểm thử Hai Mô hình của Magnitude

  • Mô hình Lập kế hoạch

    • Khuyến nghị: Gemini 2.5 Pro
    • Các lựa chọn thay thế: Các mô hình từ Anthropic, OpenAI, AWS Bedrock, v.v.
    • Chức năng: Phát triển chiến lược kiểm thử tổng thể và thích ứng với các thay đổi giao diện
  • Mô hình Thực thi

    • Hiện chỉ hỗ trợ Moondream (2B tham số)
    • Chức năng: Xử lý tương tác UI với độ chính xác ở cấp độ pixel
    • Lợi ích: Thực thi nhanh, rẻ, nhất quán
    • Giá: Moondream cung cấp 5.000 yêu cầu miễn phí mỗi ngày (phiên bản đám mây)

Tính năng chính

  • Tạo trường hợp kiểm thử bằng ngôn ngữ tự nhiên
  • Lưu trữ kế hoạch để thực thi kiểm thử nhất quán
  • Chuyển về mô hình lập kế hoạch một cách linh hoạt khi giao diện thay đổi
  • Tích hợp CI/CD tương tự như Playwright
  • Có sẵn các tùy chọn tự lưu trữ cho Moondream

Tranh Luận về Tính Xác Định

Một trong những mối quan tâm nổi bật nhất được nêu ra trong các cuộc thảo luận cộng đồng tập trung vào tính xác định của bài kiểm tra. Các bài kiểm tra tự động truyền thống được đánh giá cao vì tính nhất quán và khả năng dự đoán, trong khi các phương pháp dựa trên AI vốn dĩ đưa vào một mức độ không xác định nào đó.

Các nhà phát triển của Magnitude đã giải quyết mối quan tâm này bằng cách giải thích rằng kiến trúc của họ được thiết kế đặc biệt với tính xác định. Thay vì tạo ra các bài kiểm tra dựa trên mã dễ vỡ khi giao diện thay đổi, Magnitude lưu trữ một kế hoạch các hành động web được mô tả bằng ngôn ngữ tự nhiên. Ví dụ, một hành động gõ phím được lưu trữ có thể bao gồm mô tả bằng ngôn ngữ tự nhiên về mục tiêu và nội dung cần nhập, cho phép mô hình thực thi tìm mục tiêu một cách đáng tin cậy mà không phụ thuộc vào các bộ chọn DOM.

Phương pháp này có nghĩa là miễn là giao diện vẫn không thay đổi nhiều, các bài kiểm tra có thể chạy nhất quán bằng cách sử dụng kế hoạch đã lưu trong bộ nhớ cache. Khi có những thay đổi giao diện đáng kể, hệ thống thông minh quay lại mô hình lập kế hoạch để điều chỉnh bài kiểm tra, tạo ra một kế hoạch mới được lưu trong bộ nhớ cache có thể được thực hiện nhất quán cho đến khi có thay đổi lớn tiếp theo.

Vượt Ra Ngoài Kiểm Thử Truyền Thống: Khả Năng Tiếp Cận và Tính Khả Dụng

Một chủ đề thú vị trong cuộc thảo luận cộng đồng khám phá cách kiểm thử dựa trên AI có thể mở rộng ra ngoài kiểm thử chức năng truyền thống sang đánh giá khả năng tiếp cận và tính khả dụng. Một người bình luận chỉ ra rằng việc chỉ dựa vào kiểm thử trực quan có thể khiến các nhà phát triển bỏ qua các vấn đề về khả năng tiếp cận.

Để đáp lại, đội ngũ Magnitude đã thừa nhận giới hạn này và bày tỏ sự quan tâm đến việc phát triển các bài kiểm tra khả năng tiếp cận song song sẽ chạy cùng với các bài kiểm tra trực quan nhưng chỉ giới hạn trong việc sử dụng cây khả năng tiếp cận. Phương pháp này có thể giúp các nhà phát triển xác định các vấn đề về khả năng tiếp cận hiệu quả hơn bằng cách mô phỏng các loại khuyết tật hoặc hạn chế khác nhau.

Một số thành viên cộng đồng cũng đề xuất rằng bản chất không xác định của kiểm thử AI thực sự có thể được tận dụng như một lợi thế cho kiểm thử tính khả dụng. Bằng cách phân tích tỷ lệ thành công qua nhiều lần chạy kiểm tra, các nhà phát triển có thể hiểu rõ hơn về cách cả tác nhân AI và con người tương tác với giao diện của họ, tiềm năng phát hiện các vấn đề về khả năng sử dụng mà các bài kiểm tra xác định sẽ bỏ qua.

Cân Nhắc về Chi Phí và Hiệu Suất

Cộng đồng đã thể hiện sự quan tâm đặc biệt đến cách Magnitude cân bằng chi phí và hiệu suất. Phương pháp hai mô hình giải quyết trực tiếp mối quan tâm này: mô hình lập kế hoạch mạnh mẽ, đắt tiền được sử dụng hạn chế để phát triển và điều chỉnh chiến lược kiểm thử, trong khi mô hình thực thi nhỏ hơn, nhanh hơn xử lý phần lớn việc thực thi kiểm thử.

Phương pháp này giảm đáng kể chi phí so với các giải pháp chỉ dựa vào các mô hình lớn như những mô hình được sử dụng trong Computer Use của OpenAI hoặc Claude của Anthropic. Moondream, chỉ là một mô hình 2B tham số, vừa nhanh hơn vừa rẻ hơn để chạy, với các tùy chọn tự lưu trữ có sẵn cho các đội có yêu cầu triển khai cụ thể.

Khi việc kiểm thử ứng dụng web tiếp tục phát triển, các khung như Magnitude đại diện cho một vùng trung gian thú vị giữa kiểm thử tự động truyền thống và các phương pháp hoàn toàn dựa trên AI. Bằng cách kết hợp thông minh các điểm mạnh của các mô hình AI khác nhau và lưu trữ kế hoạch thực thi, họ cung cấp cái nhìn thoáng qua về cách kiểm thử có thể phát triển để trở nên vừa thích ứng hơn vừa hiệu quả hơn trong tương lai.

Tham khảo: Magnitude: The open source, Al-native testing framework for web apps