Góc nhìn cộng đồng: Tại sao các nhà khoa học dữ liệu đang chọn Polars thay vì Pandas

BigGo Editorial Team
Góc nhìn cộng đồng: Tại sao các nhà khoa học dữ liệu đang chọn Polars thay vì Pandas

Cộng đồng khoa học dữ liệu đang chứng kiến một sự thay đổi đáng kể trong việc lựa chọn công cụ, với Polars nổi lên như một giải pháp thay thế hấp dẫn cho thư viện Pandas vốn đã được thiết lập từ lâu. Thông qua các cuộc thảo luận sâu rộng trong cộng đồng, chúng ta đang thấy một sự phát triển thú vị trong cách các chuyên gia dữ liệu tiếp cận quy trình làm việc hàng ngày và đưa ra lựa chọn công nghệ.

Cuộc tranh luận giữa Di sản và Đổi mới

Trong khi Pandas đã là nền tảng của phân tích dữ liệu Python trong nhiều năm, các thành viên cộng đồng ngày càng nhận ra những hạn chế của nó trong khi vẫn tôn trọng tầm quan trọng lịch sử của nó. Như một thành viên cộng đồng đã bày tỏ một cách súc tích:

Xin gửi lời cảm ơn tới Wes McKinney vì đã tạo ra thư viện dataframe trong thời điểm chúng ta chưa có gì... Pandas giống như jQuery của thời đại - tuyệt vời nhưng không còn là công nghệ tiên tiến nhất. Tuy nhiên, tôi rất biết ơn vì nó đã xuất hiện khi chúng ta cần.

Hiệu suất và Tính thực tiễn

Các nhà khoa học và kỹ sư dữ liệu đang báo cáo những cải thiện đáng kể về hiệu suất sau khi chuyển sang Polars, đặc biệt trong các tình huống liên quan đến tập dữ liệu lớn và các thao tác phức tạp. Cộng đồng nhấn mạnh rằng mặc dù việc chuyển đổi đòi hỏi một số nỗ lực và kiểm thử hồi quy do sự khác biệt tinh tế về hành vi, nhưng những cải thiện về tốc độ khiến nó đáng giá. Người dùng đặc biệt khen ngợi khả năng xử lý hiệu quả hàng triệu dòng của Polars, nhất là trong các thao tác như nội suy dữ liệu hàng tháng từ các bộ dữ liệu theo quý.

Những ưu điểm chính của Polars:

  • Thực thi trì hoãn
  • Được xây dựng trên nền tảng Rust
  • Xử lý nhất quán các giá trị null
  • Khả năng đa luồng
  • Tối ưu hóa truy vấn
  • Khả năng thực hiện các phép tổng hợp nhóm phức tạp

Xem xét về Hệ sinh thái

Mặc dù Polars ngày càng phổ biến, cộng đồng thừa nhận rằng Pandas vẫn duy trì một hệ sinh thái phong phú hơn về công cụ và tài liệu học tập. Tuy nhiên, các chuyên gia đã tìm ra các giải pháp thực tế, lưu ý rằng dataframe của Polars có thể được chuyển đổi trở lại định dạng Pandas khi cần thiết. Các công cụ như Narwhals và Ibis đang được sử dụng để tạo điều kiện chuyển đổi liền mạch giữa các định dạng dataframe khác nhau.

Các vấn đề cần xem xét khi chuyển đổi:

  • Yêu cầu kiểm thử hồi quy
  • Có sự khác biệt nhỏ về hành vi so với Pandas
  • Có thể chuyển đổi ngược lại sang Pandas khi cần
  • Có sẵn các công cụ hệ sinh thái phong phú ( Narwhals , Ibis )
  • Chuyển đổi không sao chép dữ liệu với DuckDB sử dụng Arrow

Tranh luận giữa SQL và Dataframe

Một chủ đề phụ thú vị trong cuộc thảo luận cộng đồng xoay quanh việc lựa chọn giữa SQL, lập trình hướng đối tượng truyền thống và thư viện dataframe. Trong khi một số nhà phát triển ủng hộ các lớp Python đơn giản hoặc truy vấn SQL, nhiều nhà khoa học dữ liệu bảo vệ việc sử dụng dataframe vì tính dễ sử dụng, khả năng lặp lại nhanh chóng và thân thiện với việc đánh giá mã. Ý kiến chung dường như là dataframe phù hợp khi thao tác trên nhiều dòng dữ liệu, trong khi cách tiếp cận hướng đối tượng phù hợp hơn cho các thao tác đơn lẻ.

Tích hợp với Công cụ Dữ liệu Hiện đại

Các thành viên cộng đồng đặc biệt hào hứng về sự kết hợp giữa Polars và các công cụ dữ liệu hiện đại khác, đặc biệt là DuckDB. Người dùng báo cáo thành công trong việc kết hợp các công cụ này, tận dụng khả năng SQL của DuckDB cùng với các tính năng thao tác dữ liệu hiệu quả của Polars, với khả năng chuyển đổi gần như tức thì giữa hai công cụ nhờ giao diện dựa trên Arrow.

Sự chuyển dịch từ Pandas sang Polars không chỉ đơn thuần là thay đổi công cụ - nó phản ánh sự trưởng thành của cộng đồng khoa học dữ liệu và sự sẵn sàng đón nhận những cách tiếp cận hiệu quả, hiện đại hơn trong việc thao tác và phân tích dữ liệu. Trong khi Pandas tiếp tục phục vụ mục đích của mình, đặc biệt trong các hệ thống cũ và bối cảnh giáo dục, Polars ngày càng trở thành lựa chọn hàng đầu cho các dự án mới và các ứng dụng đòi hỏi hiệu suất cao.

Nguồn trích dẫn: The Polars vs pandas difference nobody is talking about

Sự tương tác vui vẻ giữa những chú gấu Bắc Cực phản ánh sự đồng bộ và hợp tác giữa các công cụ xử lý dữ liệu hiện đại như " Polars " và " DuckDB " trong cộng đồng khoa học dữ liệu
Sự tương tác vui vẻ giữa những chú gấu Bắc Cực phản ánh sự đồng bộ và hợp tác giữa các công cụ xử lý dữ liệu hiện đại như " Polars " và " DuckDB " trong cộng đồng khoa học dữ liệu