Các Mô Hình GPT Mới Nhất của OpenAI Cho Thấy Sự Gia Tăng Đáng Báo Động về Hiện Tượng Ảo Giác

BigGo Editorial Team
Các Mô Hình GPT Mới Nhất của OpenAI Cho Thấy Sự Gia Tăng Đáng Báo Động về Hiện Tượng Ảo Giác

Trí tuệ nhân tạo đã đạt được những bước tiến đáng kể trong những năm gần đây, nhưng một xu hướng đáng lo ngại đã xuất hiện với thế hệ mô hình ngôn ngữ mới nhất. Theo kết quả kiểm tra nội bộ của chính OpenAI, các hệ thống AI tiên tiến và phức tạp nhất của họ ngày càng có xu hướng bịa ra thông tin, làm dấy lên những câu hỏi nghiêm trọng về độ tin cậy và khả năng ứng dụng thực tế trong các tình huống thực tế.

Những Con Số Đáng Lo Ngại Đằng Sau Vấn Đề Ảo Giác của GPT

Cuộc điều tra của OpenAI về các mô hình mới nhất của họ đã tiết lộ một sự thoái lui đáng kinh ngạc về độ chính xác thực tế. Mô hình GPT-o3 của công ty, được ca ngợi là hệ thống mạnh mẽ nhất, đã tạo ra ảo giác 33% thời gian khi trả lời các câu hỏi về nhân vật công chúng trong bài kiểm tra chuẩn PersonQA. Con số này cao gấp hơn hai lần tỷ lệ ảo giác của hệ thống lập luận trước đó của OpenAI, o1. Điều đáng lo ngại hơn, mô hình o4-mini mới hoạt động kém hơn đáng kể, với tỷ lệ ảo giác 48% trong cùng một bài kiểm tra. Khi được đưa vào bài kiểm tra chuẩn SimpleQA, đặt ra các câu hỏi kiến thức tổng quát hơn, kết quả còn đáng báo động hơn – o3 tạo ra ảo giác 51% thời gian, trong khi o4-mini đạt tỷ lệ ảo giác đáng kinh ngạc 79%. Mô hình o1 trước đó, để so sánh, tạo ra ảo giác 44% thời gian trong bài kiểm tra này.

Tỷ lệ ảo giác trong các mô hình OpenAI

Mô hình Điểm chuẩn PersonQA Điểm chuẩn SimpleQA
GPT-o1 ~16.5% 44%
GPT-o3 33% 51%
GPT-o4-mini 48% 79%

Nghịch Lý của Khả Năng Lập Luận Nâng Cao

Tỷ lệ ảo giác tăng cao tạo ra một mâu thuẫn khó hiểu trong sự phát triển AI. Những mô hình mới hơn này được thiết kế đặc biệt như các hệ thống lập luận có khả năng chia nhỏ các vấn đề phức tạp thành các bước logic, tương tự như quá trình tư duy của con người. OpenAI trước đây đã tuyên bố rằng o1 có thể phù hợp hoặc vượt trội hơn hiệu suất của các nghiên cứu sinh tiến sĩ trong các lĩnh vực như vật lý, hóa học, sinh học và toán học. Kỳ vọng là khả năng lập luận phức tạp hơn sẽ dẫn đến độ chính xác cao hơn, nhưng điều ngược lại dường như đang xảy ra. Một số nhà quan sát trong ngành gợi ý rằng chính các cơ chế cho phép lập luận phức tạp hơn có thể đang tạo ra thêm cơ hội để lỗi tích tụ. Khi các mô hình này cố gắng kết nối các sự kiện khác nhau và đánh giá nhiều đường dẫn có thể, chúng dường như có nhiều khả năng đi vào lãnh thổ suy đoán nơi hư cấu trở nên không thể phân biệt với thực tế.

Phản Ứng của OpenAI Đối Với Vấn Đề Ngày Càng Tăng

OpenAI đã thừa nhận vấn đề nhưng phản bác lại quan điểm cho rằng các mô hình lập luận vốn có tỷ lệ ảo giác cao hơn. Gaby Raila, một đại diện của OpenAI, nói với The New York Times rằng Ảo giác không nhất thiết phổ biến hơn trong các mô hình lập luận, mặc dù chúng tôi đang tích cực làm việc để giảm tỷ lệ ảo giác cao hơn mà chúng tôi thấy trong o3 và o4-mini. Công ty đã chỉ ra rằng cần nhiều nghiên cứu hơn để hiểu tại sao các mô hình mới nhất có xu hướng bịa đặt thông tin nhiều hơn. Điều này cho thấy rằng các nguyên nhân cơ bản vẫn còn bí ẩn ngay cả đối với những người tạo ra các hệ thống này, làm nổi bật bản chất hộp đen của các mô hình ngôn ngữ lớn tiếp tục thách thức các nhà nghiên cứu AI.

Ảnh Hưởng Thực Tế Đối Với Việc Áp Dụng AI

Vấn đề ảo giác ngày càng tăng đặt ra những thách thức đáng kể cho các ứng dụng AI thực tế. Khi các hệ thống này ngày càng được triển khai trong lớp học, văn phòng, bệnh viện và các cơ quan chính phủ, nguy cơ lan truyền thông tin sai lệch ngày càng tăng. Các chuyên gia pháp lý đã phải đối mặt với hậu quả khi sử dụng ChatGPT mà không xác minh các trích dẫn của nó, và các vấn đề tương tự có thể phát sinh trong vô số bối cảnh khác. Giá trị cơ bản của trợ lý AI – tiết kiệm thời gian và giảm khối lượng công việc – bị suy giảm khi người dùng phải kiểm tra kỹ lưỡng từng kết quả. Điều này tạo ra một tình huống nghịch lý khi các công cụ AI mạnh mẽ hơn thực sự có thể đòi hỏi nhiều sự giám sát của con người hơn, không phải ít hơn. Cho đến khi các vấn đề ảo giác này được giải quyết, người dùng nên tiếp cận nội dung do AI tạo ra với sự hoài nghi đáng kể, đặc biệt là khi độ chính xác là điều quan trọng nhất.

Những lo ngại chính về hiện tượng AI ảo giác

  • Giảm độ tin cậy trong môi trường chuyên nghiệp
  • Tiềm ẩn hậu quả pháp lý từ việc dựa vào thông tin bịa đặt
  • Giảm lợi ích tiết kiệm thời gian do cần phải kiểm tra sự thật
  • Thách thức khi triển khai trong môi trường quan trọng như y tế hoặc cơ quan chính phủ
Hình ảnh này nhấn mạnh công nghệ đằng sau các hệ thống AI, làm nổi bật vai trò quan trọng của thông tin chính xác trong việc ứng dụng chúng trong nhiều lĩnh vực khác nhau
Hình ảnh này nhấn mạnh công nghệ đằng sau các hệ thống AI, làm nổi bật vai trò quan trọng của thông tin chính xác trong việc ứng dụng chúng trong nhiều lĩnh vực khác nhau

Tương Lai của AI Đáng Tin Cậy

Để các hệ thống AI đạt được tiềm năng đã hứa hẹn, vấn đề ảo giác phải được giải quyết. Ngành công nghiệp này đang đối mặt với một thách thức quan trọng: làm thế nào để duy trì khả năng lập luận nâng cao của các mô hình mới hơn trong khi cải thiện độ tin cậy thực tế của chúng. OpenAI và các đối thủ cạnh tranh như Google và Anthropic chắc chắn đang nỗ lực giải quyết vấn đề này, nhưng giải pháp vẫn còn khó nắm bắt. Tình hình hiện tại cho thấy sự phát triển AI có thể đã đạt đến một điểm mà sự phức tạp tăng lên đi kèm với chi phí về độ tin cậy – ít nhất là tạm thời. Khi nghiên cứu tiếp tục, người dùng phải duy trì quan điểm cân bằng, đánh giá cao khả năng ấn tượng của các hệ thống này trong khi nhận ra những hạn chế đáng kể của chúng. Cuộc tìm kiếm AI có thể lập luận như con người trong khi duy trì độ chính xác như máy móc với các sự kiện vẫn tiếp tục, nhưng hiện tại, việc xác minh của con người vẫn là một thành phần thiết yếu khi làm việc với các hệ thống AI tiên tiến nhất.