Cuộc thảo luận gần đây về các vấn đề tương thích của curl với UndefinedBehaviorSanitizer (UBsan) của Clang đã làm dấy lên một cuộc tranh luận sôi nổi trong cộng đồng lập trình viên về hành vi không xác định của C và tác động của nó đến các ứng dụng thực tế. Sự việc này làm nổi bật mối căng thẳng ngày càng tăng giữa đặc tả ngôn ngữ lý thuyết và các phương pháp lập trình thực tế đã được sử dụng trong nhiều thập kỷ.
Sự Cố
Nguyên nhân của cuộc thảo luận này là một thay đổi gần đây trong mã nguồn của curl, nơi Daniel Haxx phải sửa đổi cách định nghĩa kiểu CURL do UBsan phát hiện sự không khớp kiểu con trỏ hàm là hành vi không xác định. Điều tưởng chừng như một mô hình triển khai hợp lý - sử dụng các định nghĩa kiểu khác nhau cho mã nội bộ và bên ngoài - hóa ra lại không chính xác về mặt kỹ thuật theo tiêu chuẩn C.
Hiểu về Vấn đề Kỹ thuật
Vấn đề cốt lõi xoay quanh tính tương thích của con trỏ hàm và chuyển đổi kiểu. Mặc dù nhiều lập trình viên C cho rằng các kiểu con trỏ khác nhau (như void*
và char*
) có thể hoán đổi tự do cho nhau, tiêu chuẩn C thực sự coi việc gọi một hàm thông qua con trỏ có kiểu khác là hành vi không xác định.
Tác động đến Nền tảng
Nhiều lập trình viên trong cộng đồng đã chỉ ra rằng đây không chỉ là mối quan tâm lý thuyết:
- Xác thực Con trỏ : Các nền tảng hiện đại với xác thực con trỏ có thể mã hóa kiểu hàm vào chính con trỏ đó
- Kiến trúc CHERI : Các hệ thống triển khai CHERI có thể thực thi kiểm tra kiểu con trỏ nghiêm ngặt
- Emscripten : Nền tảng này sẽ bị lỗi khi sử dụng các ép kiểu con trỏ hàm không tương thích
Bối cảnh Rộng hơn
Tình huống này minh họa cho một cuộc tranh luận lớn hơn trong cộng đồng lập trình C:
- Tiêu chuẩn và Thực tế : Nhiều mô hình lập trình phổ biến hoạt động đáng tin cậy trong thực tế nhưng về mặt kỹ thuật lại là hành vi không xác định theo tiêu chuẩn C
- Sự Phát triển của Phần cứng : Trong khi C thường được ca ngợi vì gần gũi với phần cứng, các tính năng phần cứng hiện đại và cơ chế bảo mật đang khiến một số phương pháp C truyền thống ngày càng gặp vấn đề
- Tối ưu hóa Trình biên dịch : Những đoạn mã từng được coi là an toàn và đáng tin cậy có thể bị lỗi khi trình biên dịch tối ưu hóa trở nên quyết liệt hơn trong việc khai thác hành vi không xác định
Hướng Giải quyết
Cộng đồng đã đề xuất một số giải pháp tiềm năng:
- Sử dụng các hàm trung gian để xử lý chuyển đổi kiểu an toàn
- Bổ sung các danh mục định nghĩa hành vi mới vào tiêu chuẩn C
- Triển khai kiểm tra đặc thù nền tảng với các cờ biên dịch
Tác động đến Lập trình viên
Sự cố này nhắc nhở rằng ngay cả những lập trình viên có kinh nghiệm cũng cần thận trọng với các giả định về hành vi của C. Như nhiều thành viên cộng đồng đã lưu ý, các công cụ như UBsan ngày càng trở nên quan trọng trong việc xác định các vấn đề tiềm ẩn trước khi chúng gây ra sự cố trong môi trường sản xuất.
Cuộc thảo luận cũng nhấn mạnh nhu cầu ngày càng tăng đối với các ngôn ngữ lập trình hiện đại có thể cung cấp cả khả năng kiểm soát cấp thấp và đảm bảo an toàn mạnh mẽ, với nhiều người chỉ ra Rust như một ví dụ về cách đạt được sự cân bằng này.
Bản sửa của Daniel Haxx cho curl thể hiện một sự thỏa hiệp thực tế, quay trở lại định nghĩa kiểu đơn giản hơn để đảm bảo tương thích trên các nền tảng trong khi hy sinh một số độ rõ ràng của mã nội bộ.
Tình huống này tiếp tục phát triển khi cộng đồng C đang vật lộn với việc cân bằng giữa khả năng tương thích ngược, bảo mật và khả năng của phần cứng hiện đại.