Bản thảo Voynich, một tài liệu bí ẩn từ thế kỷ 15 chứa đầy văn bản không thể giải mã và hình minh họa kỳ lạ, tiếp tục làm các nhà nghiên cứu bối rối hàng thế kỷ sau khi nó được tạo ra. Một phân tích tính toán gần đây sử dụng các kỹ thuật Xử lý Ngôn ngữ Tự nhiên (NLP) hiện đại đã tiết lộ những hiểu biết thú vị về cấu trúc của bản thảo, cho thấy nó chứa các mẫu phù hợp với một ngôn ngữ thực sự hơn là những ký tự vô nghĩa ngẫu nhiên.
Phân tích Cấu trúc Tiết lộ Mẫu Giống Ngôn ngữ
Phân tích này sử dụng một số kỹ thuật NLP bao gồm phân cụm các từ gốc đã được tách bỏ hậu tố sử dụng SBERT đa ngôn ngữ (Sentence-BERT), nhận diện các cụm từ giống từ chức năng so với cụm từ giống từ nội dung, và mô hình hóa chuyển tiếp kiểu Markov. Bằng cách loại bỏ các phần kết thúc giống hậu tố lặp lại từ các từ (như aiin, dy, và chy), nhà nghiên cứu đã có thể cô lập những gì có vẻ là các dạng gốc lặp lại với sự biến đổi. Quyết định tiền xử lý này đã cải thiện đáng kể hành vi phân cụm, với các gốc từ tương tự nhóm chặt chẽ hơn và ma trận chuyển tiếp thể hiện các mẫu cấu trúc rõ ràng hơn.
Các phát hiện cho thấy một số cụm từ thể hiện đặc điểm điển hình của ngôn ngữ tự nhiên. Cụm 8, chẳng hạn, cho thấy tần suất cao, đa dạng thấp, và thường xuất hiện ở đầu dòng—hành vi phù hợp với từ chức năng trong các ngôn ngữ đã biết. Trong khi đó, Cụm 3 thể hiện tính đa dạng cao và vị trí linh hoạt, gợi ý rằng nó có thể đại diện cho từ nội dung. Có lẽ điều thuyết phục nhất là ma trận chuyển tiếp cho thấy cấu trúc nội bộ mạnh mẽ dường như xa rời tính ngẫu nhiên, và các mẫu sử dụng cụm từ khác nhau đáng kể giữa các phần của bản thảo (như phần Sinh học so với phần Thực vật học).
![]() |
---|
Biểu đồ nhiệt về xác suất chuyển đổi cụm, thể hiện các mẫu ngôn ngữ được xác định trong Bản thảo Voynich |
Cộng đồng Đề xuất Kỹ thuật Giảm Chiều Thay thế
Trong khi phân tích ban đầu sử dụng Phân tích Thành phần Chính (PCA) để giảm chiều, các thành viên cộng đồng đã đề xuất các giải pháp thay thế tiên tiến hơn có thể tiết lộ cấu trúc sâu hơn. Một số người bình luận đã đề nghị các thuật toán mới hơn như UMAP (Uniform Manifold Approximation and Projection), t-SNE, PaCMAP, hoặc LocalMAP như các công cụ có thể hiệu quả hơn cho loại dữ liệu này.
Khi tôi có được sự phân tách tốt với PCA, cá nhân tôi có xu hướng tránh UMAP, vì khoảng cách tương đối của tất cả các điểm với nhau dễ diễn giải hơn. Tôi tránh t-SNE bằng mọi giá, bởi vì khoảng cách trong những biểu đồ đó gần như vô nghĩa.
Cuộc thảo luận này nêu bật một cân nhắc phương pháp quan trọng trong trực quan hóa embedding: trong khi các kỹ thuật mới hơn có thể tiết lộ các mẫu phức tạp hơn, đôi khi chúng hy sinh khả năng diễn giải khoảng cách tương đối giữa các điểm. Việc lựa chọn kỹ thuật giảm chiều có thể ảnh hưởng đáng kể đến các mẫu mà nhà nghiên cứu quan sát và cách họ diễn giải chúng.
Mối quan ngại về Mô hình Embedding Lỗi thời và Tiền xử lý
Một điểm quan trọng khác được cộng đồng nêu ra là mô hình embedding được sử dụng trong phân tích—paraphrase-multilingual-MiniLM-L12-v2—đã khoảng bốn năm tuổi, điều này trong lĩnh vực NLP phát triển nhanh chóng được coi là lỗi thời. Người bình luận đề xuất rằng các mô hình embedding văn bản hiện đại, thậm chí những mô hình không được đào tạo rõ ràng cho hỗ trợ đa ngôn ngữ, có thể hoạt động tốt hơn trên các ngôn ngữ không xác định như ngôn ngữ của Bản thảo Voynich.
Ngoài ra, một số người đặt câu hỏi liệu các kỹ thuật NLP truyền thống như loại bỏ hậu tố có thể thực sự làm tổn hại đến chất lượng embedding bằng cách loại bỏ dữ liệu ngữ cảnh liên quan. Nhà nghiên cứu ban đầu đã thừa nhận hạn chế này, lưu ý rằng việc loại bỏ hậu tố là một quyết định tiền xử lý mạnh có thể đã loại bỏ thông tin hình thái thực sự hoặc che giấu các biến thể biến đổi có ý nghĩa.
Các Kỹ thuật NLP Chính Được Sử dụng trong Phân tích
- Phân cụm các từ gốc đã được tách bằng SBERT đa ngôn ngữ
- Nhận diện các cụm từ chức năng và từ nội dung
- Mô hình hóa chuyển tiếp kiểu Markov của chuỗi cụm từ
- Lập bản đồ cấu trúc cú pháp dựa trên folio
- Tạo giả thuyết từ điển dựa trên dữ liệu
Cải tiến Được Cộng đồng Đề xuất
- Thay thế PCA bằng các thuật toán giảm chiều mới hơn (UMAP, t-SNE, PaCMAP, LocalMAP)
- Sử dụng các mô hình nhúng văn bản mới hơn thay vì paraphrase-multilingual-MiniLM-L12-v2 đã 4 năm tuổi
- Xem xét giữ nguyên hậu tố để bảo tồn thông tin hình thái học
- Kiểm tra các nhóm đối chứng với ngôn ngữ giả được tạo ra
- So sánh với các ngôn ngữ đã biết để tìm điểm tương đồng về cấu trúc
Cuộc tranh luận Trò lừa bịp và Ngôn ngữ Tiếp tục
Cộng đồng vẫn chia rẽ về việc liệu Bản thảo Voynich đại diện cho một ngôn ngữ thực sự hay một trò lừa bịp tinh vi. Trong khi một số người tin rằng bản thảo là những ký tự vô nghĩa không thể giải mã, các phân tích thống kê liên tục tìm thấy các mẫu khó có thể xuất hiện từ văn bản ngẫu nhiên. Như một người bình luận đã lưu ý, để tạo ra các mẫu như vậy, ai đó sẽ phải đi một chặng đường dài để xây dựng một ngôn ngữ nhân tạo hoàn chỉnh—một thành tựu ấn tượng tự nó.
Những người khác chỉ ra rằng con người nổi tiếng là kém trong việc tạo ra sự ngẫu nhiên thực sự, và ai đó cố gắng tạo ra một ngôn ngữ giả trong thế kỷ 15 có thể vô tình tạo ra văn bản với các đặc tính thống kê giống ngôn ngữ. Cuộc tranh luận tiếp tục, với một số nhà nghiên cứu đề xuất rằng bản thảo có thể mã hóa một ngôn ngữ nhân tạo có cấu trúc hoặc ngôn ngữ ghi nhớ sử dụng đệm âm tiết và lặp lại theo vị trí.
Việc áp dụng các kỹ thuật tính toán hiện đại cho bí ẩn hàng thế kỷ này cho thấy công nghệ có thể làm sáng tỏ các câu đố lịch sử như thế nào. Mặc dù chúng ta có thể chưa giải mã được Bản thảo Voynich, những phân tích này đang giúp chúng ta hiểu cấu trúc của nó và thu hẹp các khả năng về những gì nó có thể đại diện.
Tham khảo: Phân tích Cấu trúc Bản thảo Voynich