Plexe: Xây dựng mô hình ML bằng ngôn ngữ tự nhiên làm dấy lên cuộc thảo luận cộng đồng về sự phát triển của AutoML

BigGo Editorial Team
Plexe: Xây dựng mô hình ML bằng ngôn ngữ tự nhiên làm dấy lên cuộc thảo luận cộng đồng về sự phát triển của AutoML

Trong lĩnh vực học máy đang phát triển nhanh chóng, một công cụ mới có tên là Plexe đã xuất hiện cho phép người dùng tạo ra các mô hình ML bằng cách mô tả chúng bằng ngôn ngữ đơn giản. Công cụ này đã làm dấy lên cuộc thảo luận đáng kể trong cộng đồng công nghệ về tương lai của học máy tự động và các ứng dụng thực tế của nó trong các tình huống thực tế.

Kiến trúc đa tác tử hỗ trợ tạo mô hình bằng ngôn ngữ tự nhiên

Plexe sử dụng một nhóm các tác tử AI chuyên biệt để phân tích yêu cầu, lập kế hoạch giải pháp mô hình, tạo mã, kiểm tra hiệu suất và đóng gói mô hình để triển khai. Phương pháp đa tác tử này cho phép người dùng định nghĩa mô hình bằng mô tả tiếng Anh đơn giản, với hệ thống tự động xác định kiến trúc mô hình phù hợp dựa trên mô tả vấn đề và dữ liệu có sẵn. Công cụ này hỗ trợ nhiều loại mô hình từ các thuật toán truyền thống như gradient boosting đến mạng nơ-ron sâu, đánh giá nhiều phương pháp để tìm giải pháp tối ưu cho dữ liệu và ràng buộc cụ thể.

Nhiều thành viên cộng đồng đã bày tỏ sự quan tâm đến phương pháp sử dụng tác tử trong việc xây dựng mô hình. Hệ thống hiện tại sử dụng thư viện smolagents, mặc dù các nhà phát triển đã lưu ý những hạn chế bao gồm thiếu trừu tượng bộ nhớ chia sẻ, khó khăn trong việc tùy chỉnh lời nhắc hệ thống và thực thi đồng bộ của các tác tử được quản lý.

Phân biệt với các nỗ lực AutoML trước đây

Một phần đáng kể trong cuộc thảo luận của cộng đồng tập trung vào việc Plexe khác biệt như thế nào so với các công cụ AutoML trước đây đã trở nên phổ biến khoảng năm 2018. Trong khi một số người bình luận bày tỏ sự hoài nghi về tuyên bố tự động hóa vòng đời ML, các nhà phát triển đã làm rõ vị trí của họ:

Tôi hoàn toàn đồng ý với bình luận của bạn. Việc huấn luyện mô hình ML trên một tập dữ liệu sạch là phần dễ dàng và thú vị trong công việc của kỹ sư ML... Hiện tại, công cụ này chủ yếu nhắm đến các kỹ sư không có chuyên môn về ML: những người hiểu bối cảnh kinh doanh, biết cách xây dựng các đường ống xử lý dữ liệu và dịch vụ web, nhưng có thể không biết cách xây dựng các mô hình.

Không giống như một số phương pháp sử dụng trực tiếp các mô hình ngôn ngữ lớn làm bộ dự đoán, Plexe tận dụng LLM để thực hiện công việc mô hình hóa, thường tạo ra các mô hình nhẹ, dành riêng cho miền cụ thể như XGBoost regressors hiệu quả hơn so với việc sử dụng LLM cho suy luận.

Lộ trình phát triển dựa trên cộng đồng tập trung vào thách thức dữ liệu

Phản hồi nhất quán nhất từ cộng đồng liên quan đến các thách thức chuẩn bị dữ liệu. Nhiều người bình luận chỉ ra rằng phần khó nhất của học máy không phải là huấn luyện mô hình mà là đánh giá chất lượng dữ liệu, kỹ thuật đặc trưng và ngăn chặn rò rỉ dữ liệu. Các nhà phát triển đã thừa nhận những hạn chế này và chia sẻ kế hoạch mở rộng khả năng của Plexe:

Nhóm đang tích cực phát triển các tác tử để làm sạch dữ liệu và biến đổi đặc trưng dựa trên phản hồi từ các nhà phân tích dữ liệu, quản lý sản phẩm và kỹ sư. Họ cũng đang làm việc để cải thiện khả năng phân tích dữ liệu của hệ thống khi đưa ra quyết định mô hình hóa và phát hiện vấn đề với dữ liệu huấn luyện.

Các tính năng khác được yêu cầu bao gồm xây dựng mô hình tương tác hơn với các điểm kiểm tra của người dùng giữa các bước, tích hợp với đường ống scikit-learn và hỗ trợ tốt hơn cho đào tạo phân tán trên các nền tảng như Vertex.AI của Google Cloud.

Tính năng chính của Plexe

  • Định nghĩa mô hình bằng ngôn ngữ tự nhiên - Định nghĩa mô hình bằng mô tả tiếng Anh đơn giản
  • Kiến trúc đa tác tử - Nhóm các tác tử AI chuyên biệt xử lý các khía cạnh khác nhau của việc tạo mô hình
  • Tự động xây dựng mô hình - Xây dựng mô hình hoàn chỉnh chỉ với một lệnh gọi phương thức
  • Huấn luyện phân tán với Ray - Hỗ trợ xử lý song song trên các lõi CPU có sẵn
  • Tạo dữ liệu & Suy luận cấu trúc - Tạo dữ liệu tổng hợp hoặc tự động suy luận cấu trúc dữ liệu
  • Hỗ trợ đa nhà cung cấp - Tương thích với các mô hình của OpenAI, Anthropic, Ollama và Hugging Face

Các tùy chọn cài đặt

pip install plexe                   Cài đặt tiêu chuẩn
pip install plexe[lightweight]      Phụ thuộc tối thiểu
pip install plexe[all]              Hỗ trợ deep learning

Hạn chế được cộng đồng xác định

  • Khả năng khám phá dữ liệu còn hạn chế (đang được giải quyết)
  • Thiếu các điểm kiểm tra tương tác trong quá trình xây dựng mô hình
  • Thách thức về tính hợp lệ thống kê phổ biến trong các phương pháp tự động
  • Hiện tại thực thi đồng bộ các tác tử được quản lý
  • Tùy chỉnh hạn chế đối với hệ thống nhắc của tác tử

Tính hợp lệ thống kê vẫn là một thách thức

Các thành viên cộng đồng đã nêu lên những lo ngại về tính hợp lệ thống kê của các mô hình được tạo tự động, lưu ý rằng cả con người và LLM thường mắc lỗi thống kê. Nhóm Plexe đã thừa nhận thách thức này, giải thích rằng họ đã triển khai các giao thức xác thực và hướng dẫn xung quanh việc xử lý dữ liệu đồng thời làm việc để phát hiện tốt hơn các vấn đề phổ biến như overfitting và rò rỉ dữ liệu.

Khi học máy tiếp tục trở nên dễ tiếp cận hơn thông qua các công cụ như Plexe, sự cân bằng giữa tự động hóa và chuyên môn vẫn là điểm thảo luận trung tâm. Mặc dù tự động hóa có thể dân chủ hóa việc tiếp cận với các khả năng ML, sự đồng thuận của cộng đồng cho thấy kiến thức về lĩnh vực và hiểu biết thống kê vẫn rất quan trọng để phát triển các mô hình đáng tin cậy, sẵn sàng cho sản xuất.

Tham khảo: plexe