Một nghiên cứu đánh giá gần đây về các mô hình nền tảng chuỗi thời gian đã gây ra cuộc tranh luận sôi nổi trong cộng đồng công nghệ về việc liệu những hệ thống AI này có thực sự đáp ứng được những lời hứa của chúng hay không. Nghiên cứu đã kiểm thử các mô hình chính từ Amazon , Google , IBM và Datadog với dữ liệu sản xuất thực tế, tiết lộ cả những điểm mạnh đáng ngạc nhiên và những hạn chế đáng lo ngại.
Các Tuyên Bố Về Mô Hình Nền Tảng Bị Đặt Dưới Kính Hiển Vi
Tiền đề cốt lõi của các mô hình nền tảng chuỗi thời gian rất hấp dẫn: một hệ thống AI duy nhất có thể dự báo bất kỳ loại dữ liệu nào mà không cần huấn luyện lại. Các công ty như Amazon , Google và IBM đã định vị những mô hình này như ChatGPT cho dữ liệu chuỗi thời gian - những công cụ đa năng hoạt động trên các lĩnh vực và bộ dữ liệu khác nhau.
Tuy nhiên, các chuyên gia cộng đồng đang đặt câu hỏi liệu so sánh này có đứng vững hay không. Vấn đề cơ bản nằm ở điều gì làm cho một mô hình thực sự trở thành nền tảng. Trong khi các mô hình ngôn ngữ có thể thực hiện các tác vụ đa dạng vượt ra ngoài mục tiêu huấn luyện của chúng, các mô hình chuỗi thời gian chủ yếu xuất sắc trong tác vụ dự báo cốt lõi của chúng. Sự khác biệt này đã khiến một số người cho rằng việc gọi những hệ thống này là mô hình nền tảng có thể là tiếp thị sai lệch hơn là phân loại kỹ thuật chính xác.
Kết Quả Đánh Giá Gây Nghi Ngờ
Nghiên cứu đã kiểm thử các mô hình trên dữ liệu sản xuất Kubernetes , đo lường việc sử dụng CPU, tiêu thụ bộ nhớ và độ trễ yêu cầu. Mô hình Toto của Datadog nổi lên như người thực hiện hàng đầu, điều này ngay lập tức gây ra cảnh báo đỏ trong số các nhà đánh giá. Các nhà phê bình chỉ ra rằng việc kiểm thử chủ yếu trên dữ liệu giám sát cơ sở hạ tầng - chuyên môn của Datadog - tạo ra một thiên vị vốn có làm méo mó kết quả.
Điều đó tóm tắt mọi thứ và không có gì ngạc nhiên khi mô hình toto của Datadog thực hiện đặc biệt tốt. Kết quả sẽ hữu ích hơn nhiều nếu họ chọn một hỗn hợp không đồng nhất của các bộ dữ liệu.
Phạm vi bộ dữ liệu hạn chế đại diện cho một điểm yếu lớn trong đánh giá. Một đánh giá thực sự toàn diện sẽ bao gồm các lĩnh vực đa dạng như dự báo tài chính, dữ liệu điều tra dân số, thử nghiệm lâm sàng, hoặc bán hàng bán lẻ - không chỉ một loại chỉ số cơ sở hạ tầng.
Tóm tắt So sánh Mô hình
Mô hình | Nhà phát hành | Tham số | Đơn biến | Đa biến |
---|---|---|---|---|
Amazon Forecast | AWS | ~10M | ✓ | ✓ |
Google TimesFM | ~10M | ✓ | ||
IBM Tiny Time Mixers | IBM | ~100K | ✓ | |
Datadog Toto | Datadog | ~5M | ✓ |
![]() |
---|
Hình ảnh đối比 các mô hình tính toán cổ điển với tính toán lượng tử, tượng trưng cho cuộc thảo luận xung quanh hiệu quả của các mô hình dự báo truyền thống và hiện đại |
Mối Quan Ngại Về Phương Pháp Luận Gia Tăng
Ngoài những hạn chế về bộ dữ liệu, bản thân phương pháp luận nghiên cứu đã thu hút sự chỉ trích gay gắt. Việc lựa chọn MAPE (Mean Absolute Percentage Error) làm chỉ số đánh giá chính đã đặc biệt gây tranh cãi. MAPE được biết đến với những khuyết điểm đáng kể, bao gồm thiên vị hướng tới dự báo thấp và các vấn đề với giá trị bằng không.
Các bước tiền xử lý dữ liệu cũng gây ra mối quan ngại. Việc điền giá trị thiếu bằng phương pháp forward-fill và các kỹ thuật ước lượng khác có thể đã cải thiện hiệu suất mô hình một cách nhân tạo theo những cách không phản ánh điều kiện thế giới thực. Ngoài ra, nghiên cứu tuyên bố vượt trội so với các mô hình cổ điển nhưng không bao gồm bất kỳ phương pháp dự báo truyền thống nào trong so sánh kết quả.
Những Mối Quan Ngại Chính Về Đánh Giá Được Cộng Đồng Nêu Ra
- Thiên Lệch Dữ Liệu: Việc thử nghiệm chủ yếu trên dữ liệu giám sát hạ tầng có lợi cho mô hình chuyên biệt của Datadog
- Vấn Đề Về Chỉ Số: MAPE có những khuyết điểm đã biết bao gồm thiên lệch dự báo thấp và các vấn đề với giá trị bằng không
- Thiếu Chuẩn Mực So Sánh: Không có phương pháp dự báo cổ điển nào được bao gồm trong so sánh hiệu suất
- Phạm Vi Hạn Chế: Thử nghiệm trên một lĩnh vực duy nhất không xác thực được các tuyên bố về "mô hình nền tảng"
- Tạo Tác Tiền Xử Lý: Việc điền giá trị tiến và bổ sung dữ liệu có thể cải thiện kết quả một cách giả tạo
Các Mô Hình Cổ Điển Vẫn Cạnh Tranh
Bất chấp sự cường điệu xung quanh các mô hình nền tảng, các phương pháp dự báo truyền thống vẫn hiệu quả một cách đáng ngạc nhiên. Các phương pháp cổ điển như ARIMA và Prophet có thể được huấn luyện lại trên các bộ dữ liệu mới trong vài giây trên phần cứng hiện đại, làm cho lợi thế zero-shot trở nên ít hấp dẫn hơn so với tuyên bố ban đầu.
Đối với các khối lượng công việc ổn định, có thể dự đoán, các mô hình cổ điển thường cung cấp độ chính xác tốt hơn với chi phí tính toán thấp hơn. Điều này thách thức giả định rằng các mô hình lớn hơn, phức tạp hơn sẽ tự động mang lại kết quả tốt hơn.
Con Đường Phía Trước
Cuộc tranh luận làm nổi bật một vấn đề rộng lớn hơn trong nghiên cứu AI: khoảng cách giữa các tuyên bố tiếp thị và hiệu suất thực tế. Trong khi các mô hình nền tảng chuỗi thời gian cho thấy triển vọng trong việc xử lý các luồng dữ liệu phức tạp, đa biến, chúng không phải là giải pháp đa năng mà một số nhà cung cấp gợi ý.
Các đánh giá trong tương lai cần các bộ dữ liệu đa dạng hơn, các chỉ số tốt hơn và so sánh trung thực với các phương pháp cổ điển. Cộng đồng đang kêu gọi các đánh giá chuẩn hóa như khung cuộc thi M4 để cung cấp các đánh giá hiệu suất đáng tin cậy hơn.
Công nghệ đang phát triển nhanh chóng, nhưng người dùng nên tiếp cận các tuyên bố về mô hình nền tảng với sự hoài nghi lành mạnh. Đối với nhiều ứng dụng, các phương pháp truyền thống đơn giản hơn vẫn có thể là lựa chọn tốt hơn.
Tham khảo: Zero-Shot Forecasting: Our Search for a Time-Series Foundation Model