Grok AI Bắt Kịp với Tính Năng Nhận Diện Hình Ảnh và Hỗ Trợ Giọng Nói Đa Ngôn Ngữ

BigGo Editorial Team
Grok AI Bắt Kịp với Tính Năng Nhận Diện Hình Ảnh và Hỗ Trợ Giọng Nói Đa Ngôn Ngữ

Cuộc đua chatbot AI tiếp tục nóng lên khi xAI của Elon Musk giới thiệu những khả năng mới đáng kể cho nền tảng Grok. Trong một động thái đưa nó tiến gần hơn với các đối thủ như ChatGPT của OpenAI và Gemini của Google, Grok hiện cung cấp khả năng nhận diện hình ảnh và tính năng giọng nói nâng cao, đánh dấu một bước tiến khác hướng tới các trợ lý AI tương tác và phản hồi tốt hơn.

Grok Vision Bước Vào Đấu Trường AI Thị Giác

Grok đã gia nhập hàng ngũ các hệ thống AI có thể nhìn thông qua camera của thiết bị. Grok Vision mới được giới thiệu cho phép chatbot phân tích và phản hồi thông tin hình ảnh được chụp qua camera điện thoại thông minh theo thời gian thực. Tính năng này, được công bố bởi nhà phát triển xAI Ebby Amir vào ngày 22 tháng 4 năm 2025, cho phép người dùng chỉ cần hướng camera vào các vật thể hoặc cảnh vật và đặt câu hỏi cho Grok về những gì nó thấy. Khả năng thị giác này phản ánh các chức năng tương tự đã có sẵn trong Gemini của Google và ChatGPT của OpenAI, cho thấy thị giác thời gian thực đang nhanh chóng trở thành một tính năng tiêu chuẩn trong các chatbot AI tiên tiến.

Hỗ Trợ Giọng Nói Đa Ngôn Ngữ Mở Rộng Khả Năng Tiếp Cận

Ngoài khả năng thị giác, bản cập nhật mang đến hỗ trợ giọng nói mở rộng cho Grok. Chatbot hiện có thể tham gia vào các cuộc trò chuyện bằng giọng nói bằng nhiều ngôn ngữ, bao gồm tiếng Tây Ban Nha, tiếng Pháp, tiếng Thổ Nhĩ Kỳ, tiếng Nhật và tiếng Hindi. Khả năng đa ngôn ngữ này mở rộng đáng kể khả năng tiếp cận của Grok đối với người không nói tiếng Anh và định vị nó như một trợ lý AI có tính toàn cầu hơn. Chế độ giọng nói cho phép trò chuyện tự nhiên với AI, mặc dù giống như các chatbot hỗ trợ giọng nói khác, tính chất tổng hợp của giọng nói vẫn dễ nhận thấy đối với hầu hết người dùng.

Khả Năng Sử Dụng Nền Tảng và Tính Năng Cao Cấp

Hiện tại, những tính năng mới này chỉ dành riêng cho người dùng iOS trên gói Grok tiêu chuẩn, theo mô hình của xAI là triển khai các bản cập nhật cho người dùng iPhone trước. Người dùng Android chỉ có thể truy cập các tính năng mới này nếu họ đăng ký gói SuperGrok cao cấp, với giá 30 đô la Mỹ mỗi tháng. Gói cao cấp cũng bao gồm các tính năng bổ sung như tìm kiếm thời gian thực trong Chế độ Giọng nói, mang đến cho người đăng ký trả phí chức năng nâng cao vượt trội so với gói tiêu chuẩn.

Tính năng mới của Grok:

  • Grok Vision: Phân tích hình ảnh theo thời gian thực qua camera
  • Hỗ trợ giọng nói đa ngôn ngữ: Tiếng Tây Ban Nha, Pháp, Thổ Nhĩ Kỳ, Nhật Bản, Hindi
  • Tìm kiếm bằng giọng nói theo thời gian thực (chỉ dành cho người đăng ký SuperGrok)

Khả dụng trên các nền tảng:

  • iOS: Tất cả tính năng có sẵn trong gói tiêu chuẩn
  • Android: Các tính năng yêu cầu đăng ký SuperGrok với giá 30 USD/tháng

Cập nhật gần đây của xAI:

  • Công cụ tạo tài liệu và ứng dụng
  • Tính năng ghi nhớ để duy trì ngữ cảnh cuộc hội thoại

Xu Hướng Rộng Lớn Hướng Tới AI Chủ Động

Các bản cập nhật mới nhất của Grok phù hợp với xu hướng của ngành công nghiệp hướng tới cái gọi là AI chủ động – các hệ thống có thể cảm nhận môi trường xung quanh, đặt mục tiêu, lập kế hoạch hành động và đưa ra quyết định với sự hướng dẫn tối thiểu từ con người. Điều này thể hiện một sự tiến hóa đáng kể so với các mô hình AI trước đây chỉ đơn giản là phản hồi các lệnh cụ thể hoặc tạo nội dung dựa trên dữ liệu đào tạo. Gemini 2.0 của Google và ChatGPT của OpenAI với tính năng Tasks minh họa cho xu hướng này, cung cấp khả năng chuyển đổi thông tin thô thành những hiểu biết có thể hành động và cho phép người dùng đặt lời nhắc và lên lịch các nhiệm vụ định kỳ.

Phát Triển Tính Năng Nhanh Chóng của xAI

Tốc độ phát triển tại xAI đã đáng chú ý nhanh chóng trong những tháng gần đây. Ngay trước các bản cập nhật về thị giác và giọng nói, Grok đã nhận được các công cụ để tạo tài liệu và ứng dụng, cũng như tính năng bộ nhớ cho phép chatbot ghi nhớ chi tiết từ các cuộc trò chuyện trước đó. Khả năng ghi nhớ này cho phép phản hồi theo ngữ cảnh và phù hợp hơn theo thời gian, khi AI xây dựng lịch sử tương tác với từng người dùng.

Tương Lai của AI Hội Thoại

Khi các chatbot AI như Grok, ChatGPT và Gemini tiếp tục có được khả năng cảm giác và chủ động, chúng tiến gần hơn đến tầm nhìn khoa học viễn tưởng về trợ lý AI được mô tả trong phương tiện truyền thông như bộ phim Her năm 2013. Mặc dù các triển khai hiện tại vẫn rõ ràng cho thấy bản chất nhân tạo của chúng, quỹ đạo cho thấy các trợ lý AI ngày càng tự nhiên và hữu ích có thể hiểu không chỉ những gì chúng ta nói, mà còn những gì chúng ta thấy và bối cảnh trong đó chúng ta hoạt động. Đối với người dùng, điều này có nghĩa là sự hỗ trợ AI trực quan và hữu ích hơn, đòi hỏi ít hướng dẫn rõ ràng hơn và cung cấp hỗ trợ phù hợp hơn.