Khai thác tư liệu về Việt Nam qua Văn uyên các Tứ khố toàn thư điện tử bản (文 淵 閣 四 庫 全 書 電 子 版)

Tuân mệnh Hoàng đế Thanh triều Càn Long năm 1772, bộ Tứ khố toàn thư được biên tập ròng rã trong 10 năm (1773 - 1782) với một đội ngũ 300 học giả xuất chúng nhất. Sau đó, lại phải mất thêm 8 năm để nhân thêm 6 bản: tổng cộng 7 bộ Tứ khố toàn thư đã được san hành khi ấy. Thế nhưng trải qua những thử thách lịch sử, nay chỉ còn 2 bộ hoàn chỉnh bảo tồn tại Thư viện quốc gia Bắc Kinh và Thư viện Cố Cung Đài Loan, cùng một bộ khiếm khuyết lưu trữ tại Thư viện tỉnh Cam Túc(1). Được mệnh danh là “Vạn lý trường thành của học thuật Trung Quốc”, Tứ khố toàn thư tập hợp 3.640 tác phẩm (gồm 36.000 sách, 800.000.000 chữ) phân thành 4 phần Kinh, Sử, Tử, Tập. Bộ sách là tập đại thành của 5.000 năm văn minh Trung Hoa(2), và cũng là nguồn tư liệu trọng yếu nhất để nghiên cứu quan hệ của Trung Quốc với các nước lân bang trong quá khứ. Tuy vậy, khai thác nguồn tư liệu này không hoàn toàn dễ dàng. Do thiếu những mục lục sách dẫn chi tiết cho toàn bộ kho sách(3), truy xuất tư liệu trong Tứ khố toàn thư đôi lúc tựa như bất khả thi vì thiếu hẳn những công cụ tra cứu hỗ trợ cần thiết. Đáng mừng là khó khăn này đã được giải quyết nhờ những ứng dụng tin học hiện đại vào lĩnh vực cổ học(4).

Năm 1997, Nhà xuất bản trường Đại học Vũ Hán được phê chuẩn xuất bản Tứ khố toàn thư nguyên bản điện tử(5). Năm 1998 Digital Heritage Pubishing Ltd. và Nhà xuất bản trường Đại học Trung văn Hong kong phát hành bộ Văn uyên các Tứ khố toàn thư điện tử bản (TKTTĐT) - Nguyên văn cập tiêu đề kiểm sách bản (gồm 167 đĩa quang), và năm 1999, Nguyên văn cập toàn văn kiểm sách bản gồm đủ Kinh, Sử, Tử, Tập (gồm 183 đĩa) cũng đã được xuất bản(6). Đối với chúng ta thì đây chính là chìa khóa thiết yếu để thâm nhập kho tư liệu, và khai thác sử liệu liên quan đến Việt Nam được ghi chép trong thư tịch Trung Hoa.

Nguyên tắc soạn thảo TKTTĐT có thể lược thuật như sau:

1. Đưa văn bản Văn uyên các Tứ khố toàn thư vào đĩa quang dưới dạng đồ hình với sự trợ giúp của máy nhập ảnh (scanner).

2. Dùng kỹ thuật “nhận biết phù hiệu văn tự bằng quang học” (Optical Character Recognition, OCR) để hiệu đối, chuyển các đồ hình đã có sang dạng thức Hán tự tiêu chuẩn Unicode (phồn thể và giản thể). Đây là công đoạn quan trọng nhất vì nó phá vỡ giới hạn không thể tra kiểm được của các đồ hình ở nguyên bản.

3. Trên cơ sở bản văn mới với mã Hán tự tiêu chuẩn có thể tiến hành tra kiểm toàn bộ thư khố. Với mục từ tra tìm (thu nhập với mã Hán tự tiêu chuẩn), hệ thống điện tử sẽ dễ dàng truy xuất các mã đồng dạng có trong thư khố.

Dựa trên cơ sở tên tác phẩm, nhân danh, triều đại, và chủ đề tiêu mục, TKTTĐT cho phép tra kiểm hoặc toàn bộ thư khố, hoặc hạn định trong một phần nào đó. Phạm vi tra cứu có thể giới hạn hoặc ở “Tứ khố phân loại” (chọn một trong 4 phần Kinh, Sử, Tử, Tập), hoặc ở “Thư danh điều kiện” (chỉ chọn tên tác phẩm), “Trứ giả điều kiện” (chỉ chọn tên tác giả), “Tổng hợp điều kiện” hay “Đặc thù thuộc tính” (sách địa phương chí, hay trứ tác của các tác gia nước ngoài). Từ điển điện tử, tư liệu tham khảo, công cụ biên tập cũng được thiết kế trong cùng hệ thống để tiện sử dụng.

Xin đơn cử một vài ví dụ để minh họa. Có thể truy xuất các tư liệu Trung Quốc liên quan đến Mạc Đăng Dung trên cơ sở tra tìm toàn bộ thư khố “toàn văn kiểm sách”. Kết quả có 75 quyển trong đó danh tính của người sáng lập vương triều nhà Mạc được in đậm xuất hiện 127 lần. Riêng Minh sử có 8 quyển, và ở quyển cuối trong danh sách, tính danh “Mạc Đăng Dung” xuất hiện 2 lần (Phụ lục 1). Người sử dụng có thể tùy ý chọn đọc (và in) hoặc bản gốc Văn uyên các, hoặc bản hiện đại với mã Hán tự tiêu chuẩn (Phụ lục 2). Tương tự, có thể tìm thấy tên “Mâu Tử ” ở 315 quyển (542 lần) trong Tứ khố. Khi cần thiết, người đọc có thể phóng đại (zoom) một đoạn, hay một chữ trong nguyên bản để nghiên cứu chi tiết. Công năng này cho phép khảo sát các tự dạng đặc biệt (nhất là chữ húy).

TKTTĐT hẳn nhiên là công cụ tra cứu trọng yếu Trung Quốc cổ - cận đại (nói chung), và quan hệ của Trung Nguyên với các nước trong khu vực (nói riêng). Không ít tư liệu liên quan đến Việt Nam đang được tồn trữ trong Tứ Khố và cần được triệt để khai thác. Tuy nhiên, với giá bán còn rất đắt (Nguyên văn cập tiêu đề kiểm sách bản: 3,900US$, Nguyên văn cập toàn văn kiểm sách bản: 11,050US$), chỉ mới có một số thư viện trên thế giới trang bị được bộ thư khố điện tử này. Một bộ phận của TKTTĐT cũng đã được giới thiệu trên mạng, cho phép truy cập và sử dụng miễn phí (http://www.4kqs.com).

Sự ra đời của TKTTĐT thiết tưởng cũng là một gợi ý tốt cho việc khai thác và sử dụng kho sách Hán - Nôm quý giá của ta. Trong tình hình hiện nay, với kỹ thuật OCR cho Hán tự đã phổ biến tương đối rộng rãi, trước mắt có thể xử lý kho sách chữ Hán. Việc đưa chữ Nôm vào đĩa quang và chuyển hoán thành mã chữ Nôm tiêu chuẩn để có thể truy cập được tất cần nhiều thời gian hơn, nhưng cũng không phải là không tưởng.

Kết quả kiểm mục từ “Mạc Đăng Dung” trong Văn uyên các tứ khố toàn thư điện tử bản.

Phụ lục 1:

,

: (, , ) (,)

: [ ]

: [ ]

: [ ]

: 75 , 127

[1] 《欽 目》, , 2

[2] 《欽 目》, , 1

[3] 《欽 目》, , 1

[4] 《明 史》, , 3

[5] 《明 史》, , 1

[6] 《明 史》, , 3

[7] 《明 史》, , 2

[8] 《明 史》, , 2

[9] 《明 史》, , 1

[10] 《明 史》, , 2

[11] 《明 史》, , 2

[12] 《御 覽》, , 2

[13] 《御 覽》, , 1

[14] 《炎 聞》, , 3

[15] 《明 末》, , 9

[16] 《弇 集》, , 1

[17] 《弇 集》, , 3

[18] 《聖 訓》, , 1

[19] 《御 訓》, , 1

[20] 《今 遺》, , 1

Phụ lục 2: Tính danh “Mạc Đăng Dung” được in đậm trong một trang ở Đông Tây Dương khảo.

Chú thích:

(1) Khoảng 20 năm trước, Thương vụ ấn thư quán Đài Loan đã tiến hành in lại toàn bộ Tứ Khố toàn thư (thường gọi tắt là Văn uyên các ), gồm 1500 tập.

(2) Tứ Khố toàn thư bao gồm nhiều lĩnh vực: kinh điển, lịch sử, văn chương, triết học, địa lý, chính trị, luật lệ, kinh tế, xã hội, thiên văn, khoa học, kỹ thuật, y học v.v.

(3) Các bộ Tứ Khố toàn thư tổng mục , Tứ Khố toàn thư giản minh mục lục , tuy có giúp cho việc tra cứu thuận tiện hơn, nhưng cũng không giúp giải quyết được các khó khăn còn tồn đọng khi tra cứu chuyên sâu.

(4) Giáo sư Peter Cochrane (Đại học Bristol) cho rằng: “Công nghệ đang thổi sinh khí mới vào một công trình cũ của Trung Quốc để nắm bắt tinh hoa tri thức của nhân loại”. Xem Electronis Telegraph (số 1462. ngày 27/5/1999).

(5) Xem Ngô Thế Long, “Bộ Tứ khố toàn thư của Trung Quốc xuất bản trên đĩa quang (CD - rom)”, Tạp chí Hán Nôm, 2 (39) - 1999, tr.95-96.

(6) Đây là một công trình hợp tác của hơn 300 chuyên gia từ Bắc Kinh, Thượng Hải, Hồng Kông và Đài Loan.

 

Danh mục website