Amazon Giới Thiệu Trợ Lý AI Nova Act Được Thiết Kế Để Vượt Trội Đối Thủ Trong Tự Động Hóa Tác Vụ

BigGo Editorial Team
Amazon Giới Thiệu Trợ Lý AI Nova Act Được Thiết Kế Để Vượt Trội Đối Thủ Trong Tự Động Hóa Tác Vụ

Cuộc đua phát triển các trợ lý AI có khả năng thực hiện các tác vụ phức tạp thay vì chỉ trả lời câu hỏi đã trở nên gay gắt hơn với sự tham gia mới nhất của Amazon. Gã khổng lồ thương mại điện tử đã tiết lộ bước tiến đáng kể đầu tiên trong việc phát triển trí tuệ nhân tạo tổng quát (AGI), định vị mình là một đối thủ đáng gờm trong lĩnh vực hiện đang bị thống trị bởi OpenAI và Anthropic.

Phòng Thí Nghiệm AGI của Amazon Có Bước Đi Đầu Tiên

Phòng thí nghiệm AGI SF Lab của Amazon, đặt tại San Francisco và chuyên phát triển trí tuệ nhân tạo tổng quát, đã giới thiệu sản phẩm quan trọng đầu tiên: Amazon Nova Act. Mô hình AI mới này được thiết kế đặc biệt để cung cấp năng lượng cho các trợ lý AI tiên tiến có khả năng thực hiện nhiều tác vụ trực tuyến, từ duyệt web đến mua sắm. Dưới sự lãnh đạo của David Luan, một cựu giám đốc điều hành của OpenAI, người sau đó đồng sáng lập Adept (một startup tập trung vào các trợ lý AI), phòng thí nghiệm thể hiện cam kết nghiêm túc của Amazon trong việc bắt kịp cuộc đua AI mặc dù gần đây vẫn bị xem là kẻ đi sau.

Tuyên Bố Về Hiệu Suất và Lợi Thế Cạnh Tranh

Theo Amazon, Nova Act vượt trội hơn các mô hình từ những nhà dẫn đầu ngành như OpenAI và Anthropic trên một số tiêu chuẩn đánh giá được thiết kế để đo lường trí thông minh và năng lực của các trợ lý AI. Cụ thể, Amazon tuyên bố Nova Act hoạt động tốt hơn Claude 3.7 Sonnet và OpenAI Computer Use Agent trên các tiêu chuẩn GroundUI Web và ScreenSpot. Lợi thế về hiệu suất này có thể mang lại cho Amazon một ưu thế cạnh tranh trong thị trường trợ lý AI đang phát triển nhanh chóng.

Các tính năng chính của Amazon Nova Act:

  • Vượt trội hơn Claude 3.7 Sonnet và OpenAI Computer Use Agent trong các bài kiểm tra GroundUI Web và ScreenSpot
  • Có khả năng thực hiện tìm kiếm web, mua sắm và trả lời câu hỏi về nội dung trên màn hình
  • Có thể nhận biết các hướng dẫn chi tiết (ví dụ: "đừng chấp nhận bảo hiểm bổ sung")
  • Đã được tích hợp vào trợ lý Alexa Plus cho một số tác vụ trực tuyến
  • Hiện chỉ có sẵn cho các nhà phát triển trong "bản xem trước nghiên cứu"

Phương Pháp Kỹ Thuật và Chiến Lược Phát Triển

Thay vì tập trung vào những bản demo bắt mắt nhưng hoạt động không ổn định, cách tiếp cận của Amazon nhấn mạnh vào việc xây dựng các trợ lý AI đáng tin cậy. Luan so sánh thách thức này với cái mà ông gọi là vấn đề Waymo, ám chỉ việc các xe tự lái cần được đào tạo rộng rãi để xử lý các trường hợp đặc biệt bất thường trước khi có thể hoạt động không giám sát trên đường công cộng.

Nova Act được xây dựng dựa trên mô hình tự phát triển mạnh mẽ nhất của Amazon, Amazon Nova, với đào tạo bổ sung được thiết kế đặc biệt để cải thiện khả năng ra quyết định. Mô hình này đã được nâng cao thông qua học tăng cường, một phương pháp đã giúp các mô hình AI khác mô phỏng lý luận tốt hơn. Điều thú vị là Amazon cũng đang lấy cảm hứng từ robot vật lý, với nhóm của Luan hợp tác với một nhóm khác của Amazon do Pieter Abbeel dẫn đầu, một giáo sư tại UC Berkeley chuyên về ứng dụng robot cho AI.

Chiến lược AI của Amazon:

  • Các mô hình Nova AI được tiếp thị là "ít nhất 75% ít tốn kém hơn" so với các đối thủ cạnh tranh tương đương
  • Tập trung vào việc xây dựng các tác nhân AI đáng tin cậy thay vì các bản demo hào nhoáng
  • Lấy cảm hứng từ kinh nghiệm robot vật lý trong các trung tâm hoàn thiện đơn hàng của Amazon
  • Phát triển được dẫn dắt bởi cựu giám đốc điều hành OpenAI David Luan
  • Là một phần của chiến lược rộng lớn hơn để cạnh tranh trong thị trường AI thông qua phát triển tập trung vào tác nhân

Công Cụ Phát Triển và Khả Năng Tiếp Cận

Để khuyến khích việc áp dụng và đổi mới, Amazon đã phát hành bộ công cụ phát triển phần mềm (SDK) được thiết kế để giúp các kỹ sư dễ dàng xây dựng các phần mềm trợ lý sử dụng Nova Act. SDK cho phép các nhà phát triển cung cấp hướng dẫn cụ thể để giúp trợ lý của họ điều hướng internet, vốn được thiết kế chủ yếu cho người dùng là con người. Ví dụ, các nhà phát triển có thể hướng dẫn trợ lý đừng chấp nhận bảo hiểm bổ sung khi đặt thuê xe.

Tình Trạng Hiện Tại và Tầm Nhìn Tương Lai

Hiện tại, Nova Act chỉ có sẵn cho các nhà phát triển trong bản xem trước nghiên cứu, nhưng Amazon đang mở rộng quyền truy cập vào các mô hình AI Nova khác thông qua cổng web, giúp chúng dễ tìm và sử dụng hơn. Công ty đã tích hợp một số khả năng của Nova Act vào trợ lý Alexa Plus nâng cấp của mình, thể hiện các ứng dụng thực tế của công nghệ này.

Phòng thí nghiệm AGI của Amazon có những mục tiêu đầy tham vọng cho các trợ lý của mình, hình dung rằng cuối cùng chúng sẽ thực hiện các tác vụ phức tạp, đa bước và đa dạng như tổ chức đám cưới hoặc xử lý các tác vụ CNTT phức tạp để tăng năng suất kinh doanh. Luan mô tả Nova Act là bước đầu tiên trong tầm nhìn đó, gợi ý rằng những khả năng tiên tiến hơn đang ở phía trước.

Chiến Lược AI và Vị Thế Cạnh Tranh của Amazon

Thay vì tuyên bố cung cấp các mô hình AI mạnh mẽ nhất hiện có, Amazon đã nhấn mạnh vào tốc độ và giá trị của bộ Nova, mà họ nói là ít nhất 75 phần trăm rẻ hơn so với các đối thủ cạnh tranh tương đương. Đề xuất giá trị này, kết hợp với nguồn lực khổng lồ và cơ sở hạ tầng hiện có của Amazon, có thể định vị công ty như một ứng cử viên mạnh mẽ trong thị trường trợ lý AI mặc dù tham gia tương đối muộn.

Bước đi của Amazon vào thị trường trợ lý AI cũng phù hợp với các ứng dụng tiềm năng trong tương lai trong thương mại điện tử. Nghiên cứu trước đây của công ty đã khám phá cách các trợ lý có thể cải thiện mua sắm trực tuyến bằng cách tự động hóa quá trình tìm kiếm và mua sản phẩm, thậm chí có thể chủ động thêm sản phẩm vào giỏ hàng của người dùng dựa trên sở thích và thói quen của họ.

Ý Nghĩa Rộng Lớn Đối Với Ngành Công Nghiệp

Sự tham gia của Amazon vào thị trường trợ lý AI báo hiệu một sự thay đổi đáng kể trong bối cảnh AI, với các công ty công nghệ lớn ngày càng tập trung vào việc xây dựng các hệ thống AI có thể thực hiện hành động thay vì chỉ tham gia vào cuộc trò chuyện. Khi những trợ lý này trở nên đáng tin cậy và có khả năng hơn, chúng có thể thay đổi cơ bản cách mọi người tương tác với công nghệ và hoàn thành các tác vụ hàng ngày trực tuyến, có khả năng gây gián đoạn nhiều ngành công nghiệp trong quá trình này.