Thử nghiệm Gemini Pro: Tính năng AI ấn tượng, nhưng vẫn chưa đạt kỳ vọng

BigGo Editorial Team
Thử nghiệm Gemini Pro: Tính năng AI ấn tượng, nhưng vẫn chưa đạt kỳ vọng

Sự kiện Google I/O 2024 gần đây đã giới thiệu nhiều tiến bộ trong nền tảng AI Gemini của họ, với những lời hứa về khả năng cách mạng trong chỉnh sửa hình ảnh, tạo video và nhiều tính năng khác. Khi những tính năng này bắt đầu được triển khai đến người dùng, nhiều người đang tự hỏi liệu gói đăng ký Gemini Pro cao cấp có đáp ứng được những lời hứa đầy tham vọng này hay vẫn còn thiếu sót.

Trải nghiệm dùng thử miễn phí

Khi cân nhắc nâng cấp lên Gemini Pro, một số người dùng đã phát hiện ra rằng họ có thể dùng thử một số tính năng cao cấp chỉ đơn giản bằng cách yêu cầu một cách lịch sự. Một nhà báo công nghệ phát hiện ra rằng bằng cách nói họ đang cân nhắc nâng cấp và yêu cầu được thử các tính năng trước, Gemini cho phép truy cập giới hạn vào các khả năng cấp Pro. Bản dùng thử không chính thức này cung cấp cái nhìn thoáng qua về những gì khách hàng trả phí có thể mong đợi, mặc dù có những hạn chế như giới hạn ba lần thử cho mỗi loại tính năng.

Khả năng chỉnh sửa hình ảnh

Một trong những tính năng được quảng cáo nhiều nhất của Gemini là khả năng chỉnh sửa và thao tác với hình ảnh. Trong thực tế, kết quả khá không đồng đều. Khi được yêu cầu thực hiện các tác vụ tưởng chừng đơn giản như mở một chiếc hộp đóng trong hình ảnh hoặc xóa các đối tượng khỏi cảnh, Gemini thường tạo ra các hình ảnh hoàn toàn mới thay vì chỉnh sửa bản gốc. Những hình ảnh mới này thường bỏ sót các chi tiết quan trọng từ nguyên liệu gốc, cho thấy sự hiểu lầm cơ bản về những gì người dùng thực sự muốn.

Công nghệ robot AI của Gemini thể hiện các ứng dụng tiềm năng trong thao tác hình ảnh
Công nghệ robot AI của Gemini thể hiện các ứng dụng tiềm năng trong thao tác hình ảnh

Thách thức sao chép phong cách

Việc yêu cầu Gemini sao chép các phong cách nghệ thuật cụ thể cho thấy những hạn chế đáng kể. Khi được cung cấp hình ảnh tham khảo từ các nghệ sĩ nổi tiếng như Mike Mignola (người sáng tạo Hellboy) và được yêu cầu tạo ra tác phẩm nghệ thuật tương tự, kết quả chỉ nắm bắt được các yếu tố bề mặt trong khi bỏ lỡ các đặc điểm thẩm mỹ sâu sắc hơn định nghĩa phong cách của nghệ sĩ. Điều này làm nổi bật một vấn đề dai dẳng với các hệ thống AI: chúng có thể bắt chước các đặc điểm bề ngoài nhưng gặp khó khăn trong việc hiểu bản chất của phong cách nghệ thuật.

Nâng cao hình ảnh HD

Một tính năng được quảng cáo khác cho phép người dùng chuyển đổi hình ảnh độ phân giải thấp thành hình nền độ phân giải cao. Các thử nghiệm cho thấy rằng mặc dù Gemini có thể tạo ra hình ảnh độ phân giải cao lấy cảm hứng từ bản gốc, nhưng nó thường từ bỏ nội dung thực tế để tạo ra thứ gì đó hoàn toàn mới chỉ chia sẻ tâm trạng hoặc chủ đề. Đối với người dùng hy vọng nâng cao chất lượng những bức ảnh quý giá, cách tiếp cận này còn kém xa mong đợi.

Những hạn chế chính:

  • Thường tạo ra hình ảnh mới thay vì chỉnh sửa hình ảnh hiện có
  • Chỉ nắm bắt được các yếu tố bề mặt của phong cách nghệ thuật
  • Không thể xuất sang Google Docs hoặc Sheets một cách đúng cách
  • Tính khả dụng của các tính năng khác nhau theo khu vực
  • Không có khả năng ghi nhớ trong các ứng dụng robot

Ứng dụng thực tế hiệu quả

Mặc dù có những thiếu sót này, Gemini vẫn xuất sắc trong một số lĩnh vực thực tế. AI hoạt động đáng ngưỡng mộ khi giúp người dùng brainstorm ý tưởng, cung cấp phản hồi về bài viết, hoặc giải thích các quy trình kỹ thuật phức tạp. Những nhiệm vụ đơn giản hơn, dựa trên thông tin này phát huy điểm mạnh của AI mà không đòi hỏi sự hiểu biết sâu sắc hơn mà các nhiệm vụ sáng tạo đòi hỏi.

Ứng dụng demo thú vị

Tại Google I/O, một số bài demo ấn tượng đã giới thiệu tiềm năng của Gemini vượt ra ngoài việc tạo văn bản và hình ảnh cơ bản. Người tham dự đã trải nghiệm robot điều khiển bằng giọng nói có thể thao tác với các đối tượng, công nghệ thử quần áo ảo hiển thị trang phục một cách thực tế trên cơ thể người dùng, và tạo nhạc bằng AI phản ứng với điều chỉnh theo thời gian thực. Những ứng dụng này gợi ý về một tương lai nơi AI hỗ trợ các công việc thực tế, hàng ngày thay vì cố gắng thay thế sự sáng tạo của con người.

Các tính năng của Gemini Pro được thử nghiệm:

  • Chỉnh sửa hình ảnh (xóa đối tượng, chỉnh sửa)
  • Sao chép phong cách từ hình ảnh tham khảo
  • Nâng cao chất lượng hình ảnh HD
  • Hỗ trợ và phản hồi về viết lách
  • Khả năng giải thích kỹ thuật

Các ứng dụng Gemini đầy hứa hẹn đã được trình diễn:

  • Điều khiển robot bằng giọng nói
  • Thử đồ ảo với AI
  • Tạo nhạc thích ứng theo thời gian thực với Lyria 2
  • Tạo Android Bot tùy chỉnh
  • Tạo video AI với Flow và Veo
Trình diễn tính năng thử đồ ảo được giới thiệu tại Google I/O 2024
Trình diễn tính năng thử đồ ảo được giới thiệu tại Google I/O 2024

Hạn chế về tính khả dụng theo khu vực

Người đăng ký tiềm năng nên lưu ý rằng không phải tất cả các tính năng được quảng cáo của Gemini Pro đều có sẵn ở mọi khu vực. Bản thân AI cũng thừa nhận hạn chế này, giải thích rằng các tính năng được công bố tại các sự kiện như Google I/O thường được triển khai dần dần và có thể ban đầu bị giới hạn ở một số thị trường nhất định hoặc tồn tại trong các giai đoạn thử nghiệm.

Thiếu sót trong tích hợp

Một nhược điểm đáng kể đối với người dùng tập trung vào năng suất là khả năng tích hợp hạn chế của Gemini với các dịch vụ Google khác. Mặc dù là một phần của hệ sinh thái Google, Gemini không thể xuất kết quả đúng cách sang Google Docs hoặc Sheets—một tính năng cơ bản đáng ngạc nhiên vẫn chưa có sẵn bất kể cấp độ đăng ký nào. Hạn chế này làm giảm đáng kể tính hữu dụng của nó trong môi trường làm việc cộng tác.

Tương lai của Gemini

Google đã định vị Gemini như một trợ lý AI đa năng với tham vọng vượt xa khả năng hiện tại. Các dự án như Gemini Robotics và Flow (cho việc tạo video AI) thể hiện tầm nhìn dài hạn của công ty về AI có thể hiểu và tương tác với thế giới vật lý. Khi các công nghệ này trưởng thành, chúng có thể khắc phục khoảng cách hiểu biết hiện tại ngăn cản AI thực sự nắm bắt ý định của người dùng thay vì chỉ tuân theo hướng dẫn một cách máy móc.

Có đáng để nâng cấp không?

Hiện tại, quyết định nâng cấp lên Gemini Pro phụ thuộc phần lớn vào các trường hợp sử dụng cụ thể. Những người tìm kiếm công cụ sáng tạo để thao tác hình ảnh hoặc sao chép phong cách có thể thấy các tính năng hiện tại còn đáng thất vọng. Tuy nhiên, người dùng cần trợ giúp về nghiên cứu, viết lách hoặc học các chủ đề phức tạp có thể tìm thấy đủ giá trị để biện minh cho việc đăng ký. Khi Google tiếp tục hoàn thiện các tính năng này và triển khai các khả năng mới, đề xuất giá trị có thể trở nên hấp dẫn hơn đối với nhiều đối tượng rộng hơn.