Sự ra mắt của FastVideo, một framework mới để tăng tốc các mô hình khuếch tán video, đã châm ngòi cho một cuộc tranh luận sôi nổi trong cộng đồng công nghệ về tương lai của các mô hình tạo video AI mã nguồn mở và mã nguồn đóng. Cuộc thảo luận này diễn ra vào thời điểm quan trọng khi nhiều công ty đang chạy đua phát triển các khả năng tạo video ngày càng tinh vi.
Lợi thế của mã nguồn mở
Một phần đáng kể trong cộng đồng tin rằng các mô hình video mã nguồn mở cuối cùng sẽ vượt trội hơn so với các giải pháp mã nguồn đóng như Sora của OpenAI. Lập luận chính xoay quanh những lợi thế về hệ sinh thái mà mã nguồn mở mang lại, bao gồm khả năng sửa đổi, tinh chỉnh và tích hợp các mô hình này vào nhiều ứng dụng khác nhau. Các mô hình như Hunyuan và Mochi, có thể chạy cục bộ hoặc trong môi trường đám mây tùy chỉnh, mang đến cho các nhà phát triển và người sáng tạo nhiều sự linh hoạt hơn trong việc xây dựng các ứng dụng sáng tạo.
Các mô hình video mã nguồn mở sẽ vượt qua mã nguồn đóng. Hệ sinh thái và công cụ là yếu tố quan trọng... Bởi vì bạn có thể lập trình với chúng và chạy chúng cục bộ hoặc trong đám mây riêng của bạn. Bạn có thể tinh chỉnh chúng để làm bất cứ điều gì bạn muốn. Bạn có thể xây dựng các mô hình phản ứng âm thanh, mô hình có thể điều khiển, tường nghệ thuật tương tác, và nhiều thứ khác.
Các tính năng chính của FastVideo:
- Tăng tốc độ suy luận gấp 8 lần với FastHunyuan và FastMochi
- Hỗ trợ các mô hình DiTs video tiên tiến mã nguồn mở
- Khả năng mở rộng đào tạo với hiệu suất tăng gần như tuyến tính lên tới 64 GPU
- Khả năng tinh chỉnh tiết kiệm bộ nhớ
Giới hạn và thách thức kỹ thuật
Tuy nhiên, cuộc thảo luận cũng cho thấy những rào cản kỹ thuật đáng kể mà cả mô hình mã nguồn mở và đóng đều phải đối mặt. Giới hạn phần cứng hiện tại, đặc biệt là về bộ nhớ GPU, là một trở ngại lớn. Trong khi một số thành viên cộng đồng bày tỏ mong muốn có card đồ họa với dung lượng bộ nhớ lớn hơn (như phiên bản giả định 192GB), các chuyên gia chỉ ra rằng thiết kế dựa trên GDDR hiện tại khiến những cấu hình như vậy không khả thi. Ngành công nghiệp dường như đang đạt đến giới hạn vật lý với kiến trúc bộ nhớ GPU thông thường.
Yêu cầu phần cứng cho FastVideo:
- Tối thiểu: 2 GPU với bộ nhớ 40GB mỗi card (với LoRA)
- Yêu cầu giảm thiểu: 2 GPU với bộ nhớ 30GB mỗi card (với CPU offload và LoRA)
- Khuyến nghị: GPU với bộ nhớ 80GB cho việc suy luận
Cân bằng giữa chất lượng và khả năng tiếp cận
Cộng đồng đã nhận thấy rằng các mô hình tạo video hiện tại gặp thách thức trong việc hiểu thực tế vật lý và duy trì tính nhất quán trong các chuỗi dài hơn. Trong khi các mô hình này xuất sắc trong việc tạo ra các đoạn clip ngắn, ấn tượng về mặt hình ảnh, chúng lại gặp khó khăn trong việc duy trì sự mạch lạc trong các chuỗi dài hơn hoặc thể hiện chính xác các tương tác vật lý phức tạp. Cuộc tranh luận nhấn mạnh cách các mô hình khác nhau đưa ra những sự đánh đổi khác nhau giữa chất lượng và khả năng tiếp cận, với một số tập trung vào kết quả cao cấp trong khi những mô hình khác ưu tiên tính thực tế trong sử dụng.
Tóm lại, mặc dù công nghệ cho thấy tiềm năng to lớn, cộng đồng nhận ra rằng cần có những bước đột phá đáng kể trong cả khả năng phần cứng và kiến trúc mô hình để đạt được cấp độ tiếp theo của khả năng tạo video. Cuộc cạnh tranh đang diễn ra giữa các phương pháp mã nguồn mở và đóng tiếp tục thúc đẩy sự đổi mới trong lĩnh vực đang phát triển nhanh chóng này.
Tham khảo: FastVideo: A Lightweight Framework for Accelerating Large Video Diffusion Models