OpenAI Giới Thiệu Các Mô Hình Lập Luận Tiên Tiến O3 và O4-mini với Khả Năng Xử Lý Hình Ảnh

BigGo Editorial Team
OpenAI Giới Thiệu Các Mô Hình Lập Luận Tiên Tiến O3 và O4-mini với Khả Năng Xử Lý Hình Ảnh

Trí tuệ nhân tạo tiếp tục phát triển với tốc độ nhanh chóng khi các công ty công nghệ không ngừng mở rộng giới hạn của những điều có thể. Trong một bước tiến đáng kể cho khả năng lập luận của AI, OpenAI đã giới thiệu hai mô hình mới được thiết kế để suy nghĩ kỹ lưỡng hơn trước khi đáp ứng các yêu cầu của người dùng.

Các Mô Hình Lập Luận Mới Được Ra Mắt

OpenAI đã chính thức ra mắt hai mô hình lập luận AI mới: o3, được công ty mô tả là mô hình lập luận mạnh mẽ nhất của họ cho đến nay, và o4-mini, một phiên bản nhỏ hơn và nhanh hơn nhưng vẫn mang lại hiệu suất ấn tượng so với kích thước và chi phí của nó. Những mô hình này xuất hiện sau khi OpenAI gần đây giới thiệu mô hình chủ lực GPT-4.1 và đại diện cho sự tiến hóa tiếp theo trong hệ thống AI tập trung vào khả năng lập luận của công ty. Khác với các mô hình tiêu chuẩn, những mô hình lập luận này được đào tạo đặc biệt để suy nghĩ trước khi nói, dành thêm thời gian xử lý để đưa ra các phản hồi chất lượng cao hơn.

Tổng quan về các Mô hình mới của OpenAI

Mô hình Mô tả Tính năng chính
o3 Mô hình suy luận mạnh mẽ nhất Suy luận hình ảnh, tích hợp công cụ, hiệu suất nâng cao
o4-mini Nhỏ gọn hơn, nhanh hơn, tiết kiệm chi phí Suy luận hình ảnh, tích hợp công cụ, tối ưu hóa về tốc độ
o4-mini-high Biến thể hiệu suất cao hơn Khả năng nâng cao trong khi vẫn duy trì hiệu quả

Tích hợp Công cụ

  • Duyệt web
  • Lập trình Python
  • Hiểu hình ảnh
  • Tạo hình ảnh

Tích Hợp Hiểu Biết Hình Ảnh

Có lẽ bước tiến quan trọng nhất trong các mô hình mới này là khả năng suy nghĩ với hình ảnh. Cả o3 và o4-mini giờ đây có thể tích hợp thông tin hình ảnh trực tiếp vào quá trình lập luận của chúng, thay vì chỉ đơn thuần mô tả những gì chúng nhìn thấy. Khả năng này cho phép các mô hình làm việc với các bản phác thảo, bảng trắng, và thậm chí cả hình ảnh chất lượng thấp hoặc mờ. Các mô hình có thể thao tác hình ảnh như một phần của quá trình phân tích, bao gồm phóng to các yếu tố cụ thể hoặc xoay hình ảnh để hiểu rõ hơn nội dung. Khả năng lập luận trực quan này đại diện cho một bước tiến đáng kể trong khả năng xử lý và sử dụng thông tin của AI trên các định dạng khác nhau.

Sử Dụng Công Cụ Theo Tác Nhân

Một đột phá lớn khác là khả năng các mô hình có thể độc lập sử dụng tất cả các công cụ của ChatGPT trong quá trình lập luận của chúng. Điều này bao gồm duyệt web, lập trình Python, hiểu hình ảnh và khả năng tạo hình ảnh. OpenAI mô tả đây là một bước tiến tới một ChatGPT có tính tác nhân hơn, có thể độc lập thực hiện các nhiệm vụ thay bạn. Trong thực tế, điều này có nghĩa là các mô hình có thể tự quyết định sử dụng công cụ nào để giải quyết các vấn đề phức tạp, đa bước—tương tự như cách một người có thể lấy máy tính khi cần. Trong một buổi trình diễn, các nhà nghiên cứu đã cho thấy cách o3 có thể phân tích một poster nghiên cứu khoa học, duyệt internet để tìm thêm thông tin, và phóng to các yếu tố khác nhau của hình ảnh để tạo ra câu trả lời toàn diện.

Cải Tiến Hiệu Suất

Theo OpenAI, cả o3 và o4-mini đều vượt trội so với các phiên bản tiền nhiệm của chúng trên nhiều tiêu chuẩn đánh giá, ngay cả khi không sử dụng khả năng truy cập công cụ mới. Các mô hình thể hiện khả năng tuân theo hướng dẫn nâng cao và cung cấp các phản hồi hữu ích, có thể xác minh hơn. Trong khi o3 đại diện cho sản phẩm cao cấp với khả năng tối đa, o4-mini đã được tối ưu hóa để mang lại hiệu suất mạnh mẽ với chi phí thấp hơn và tốc độ cao hơn, giúp khả năng lập luận nâng cao trở nên dễ tiếp cận hơn.

Tính Khả Dụng và Truy Cập

Các mô hình mới có sẵn ngay lập tức cho người đăng ký ChatGPT Plus, Pro và Team, xuất hiện trong bộ chọn mô hình dưới dạng o3, o4-mini và o4-mini-high. Chúng sẽ thay thế các mô hình lập luận trước đó là o1, o3-mini và o3-mini-high. Người dùng Pro sẽ được truy cập vào o3-pro trong những tuần tới, nhưng cho đến lúc đó vẫn tiếp tục có quyền truy cập vào o1-pro. Các nhà phát triển cũng có thể truy cập các mô hình này thông qua API của OpenAI.

Các Thông Báo Bổ Sung

Bên cạnh các mô hình mới này, OpenAI đã ra mắt Codex CLI, một tác nhân lập trình mã nguồn mở chạy cục bộ trong terminal của người dùng. Công cụ này cung cấp một cách đơn giản để kết nối các mô hình AI, bao gồm o3 và o4-mini, với mã và nhiệm vụ của chính người dùng. Hỗ trợ cho GPT-4.1 dự kiến sẽ sớm được cung cấp. Công ty cũng đã công bố một sáng kiến trị giá 1 triệu đô la để hỗ trợ các dự án ban đầu sử dụng các công nghệ này, cung cấp các khoản tài trợ trị giá 25.000 đô la thông qua tín dụng API.

Các Cân Nhắc về An Toàn

OpenAI đã nhấn mạnh rằng cả hai mô hình mới đều trải qua quá trình kiểm tra an toàn rộng rãi trước khi phát hành. Chúng đã được thử nghiệm nghiêm ngặt theo chương trình an toàn của công ty và được đánh giá theo Khung Chuẩn Bị cập nhật của họ, với kết quả chi tiết có sẵn trong thẻ hệ thống đầy đủ.