Kho tàng tri thức

Phát triển AI hỗ trợ đọc dịch ngôn ngữ cổ đại

08:20 AM - 18/03/2021 17

(TVVN). Việc đọc dịch các văn bản viết bằng ngôn ngữ cổ trước nay đều phải thực hiện nhờ công sức của các học giả. Quá trình đôi khi kéo dài này giờ có thể được hỗ trợ nhờ những tiến bộ công nghệ hiện đại nhất: Trí tuệ nhân tạo.

Các điểm nhấn được xác định trên một tấm sét Elamites lấy từ bộ sưu tập thành cổ Persepolis. Nguồn: Viện Phương Đông – ĐH Chicago.

25 thế kỷ trước, mọi “giấy tờ” của triều đình Achaemenid tại Đế quốc Ba Tư đều được ghi lại trên các tấm đất sét – và hàng vạn tấm trong số đó đã được phát hiện nguyên vẹn vào năm 1933 bởi các nhà khảo cổ học tại Viện Phương Đông thuộc Đại học Chicago – Hoa Kỳ. Qua nhiều thập kỷ, các nhà nghiên cứu đã bỏ ra nhiều công sức để tìm hiểu và phiên dịch nội dung từng văn bản cổ này. Tuy vậy, quá trình phiên dịch thủ công rất khó khăn, thường kéo dài và dễ mắc lỗi.

Từ thập niên 1990, công việc của các nhà khoa học đã có thêm sự hỗ trợ của máy tính – dù không đạt nhiều thành công, một phần bởi vì tính chất ba chiều của văn bản trên đất sét và sự phức tạp của hệ thống chữ hình nêm. Nhưng mới đây, một đột phá công nghệ của ĐH Chicago có thể đã đem tới chìa khóa mở ra khả năng phiên dịch tự động các văn bản này, cũng như cho phép các nhà khoa học có thể rảnh tay thực hiện các phân tích sâu hơn. Qua đó, giúp chúng ta hé mở thêm nhiều thông tin về lịch sử, xã hội và ngôn ngữ thời Achaemenid.

Dự án DeepScribe được thành lập vào năm 2019 với sự cộng tác giữa các chuyên gia của Viện Phương Đông (OI) và Khoa Khoa học Máy tính và nhận được tài trợ từ Trung tâm Dữ liệu và Tin học – ĐH Chicago (CDAC). Khởi đầu với bộ dữ liệu 6.000 hình ảnh từ Kho lưu trữ thành cổ Persepolis, dự án sẽ xây dựng một mô hình học máy “đọc” các tấm đất sét trong bộ sưu tập, và cho ra đời một công cụ cho phép các nhà khảo cổ học ứng dụng với các loại ngôn ngữ cổ khác.

“Nếu chúng ta có thể phát triển một công cụ vừa linh hoạt vừa có thể ứng dụng rộng rãi cho các hình thức chữ viết và thời đại khác nhau, đó sẽ trở thành bước ngoặt lớn trong giới nghiên cứu,” PGS. Susanne Paulus, chuyên gia Assyria học tại ĐH Chicago, nói.

Độ chính xác 80%

Dự án DeepScribe được thai nghén khi Paulus, Sandra Schloen và Miller Prosser từ OI có cuộc gặp gỡ với PGS Sanjay Krishnan trong một sự kiện về nghiên cứu nhân văn số. Schloen và Prosser có vai trò quản lý OCHRE, một cơ sở dữ liệu trực tuyến của Viện tập hợp và sắp xếp tư liệu của các cuộc khai quật khảo cổ và các hoạt động nghiên cứu khác. Trong khi đó, Krishman nghiên cứu ứng dụng kỹ thuật AI và học sâu vào phân tích các hình thức dữ liệu phức tạp. Sự tương hợp giữa hai bên đã dọn đường cho khả năng hợp tác.

Bộ dữ liệu huấn luyện được lấy từ kết quả nghiên cứu suốt 80 năm của OI và ĐH Chicago, cũng như dự án gần đây nhằm số hóa bộ sưu tập văn bản đất sét bằng ảnh chụp có độ phân giải cao – với khối lượng hiện đã lên đến 60 terabyte và vẫn tiếp tục mở rộng – trước khi chúng được trả về Iran. Tận dụng bộ sưu tập này, các nhà khoa học đã biên soạn một từ điển tiếng Elamite viết trên các tấm sét, cũng như cho sinh viên hỗ trợ xây dựng một bộ dữ liệu gồm hơn 100 nghìn “điểm nóng” hay là các dấu hiệu riêng đã xác định.

Dựa trên bộ dữ liệu này, Krishnan đã huấn luyện một mô hình học máy mới tương tự như mô hình sử dụng ở các dự án thị giác máy tính khác. Khi thử nghiệm với các tấm sét không nằm trong bộ dữ liệu gốc, mô hình này có thể phiên dịch các ký tự hình nêm với độ chính xác lên đến 80%. Giai đoạn nghiên cứu tiếp theo sẽ xem xét vấn đề của 20% sai số để tìm cách nâng độ chính xác lên cao hơn nữa.

Viện Phương Đông - ĐH Chicago tổ chức các cuộc khai quật quy mô tại thành cổ Persepolis trong thập niên 1930. Tại đây họ phát hiện được hàng vạn văn bản cổ bằng chữ hình nêm được viết trên đất sét. Sự hợp tác giữa Viện và các nhà khoa học máy tính sẽ giúp làm tăng tốc độ đọc dịch các văn bản này. Nguồn: Viện Phương Đông - ĐH Chicago.

Nội dung của nhiều tấm sét thực ra chỉ ghi chép hoạt động mua bán, giống như “một tập hóa đơn siêu thị vậy, theo PGS. Paulus. “Nếu như máy tính có thể phiên dịch và xác định những đoạn thông tin lặp đi lặp lại và để lại cho các chuyên gia các đoạn phức tạp như tên địa danh, động từ, hay các từ cần giải nghĩa… thế cũng đã rất được việc rồi. Còn nếu như máy tính không thể quyết định cách đọc văn bản, nó vẫn có thể gửi về cho chúng ta các phương án khả thi nhất hay xác suất – như vậy cũng là một khởi đầu tốt cho nhà nghiên cứu. ”

Tham vọng lớn hơn của nhóm là sẽ biến DeepScribe thành một công cụ đọc và phiên dịch đa năng mà họ có thể chia sẻ với các nhà khảo cổ khác. Ví dụ như mô hình hiện tại có thể được huấn luyện lại cho các ngôn ngữ sử dụng văn tự hình nêm khác ngoài tiếng Elamites; hoặc huấn luyện để tự động hoàn thiện các nội dung văn bản bị khuyết thiếu. Một mô hình học máy như vậy còn có thể giúp xác định niên đại hay nguồn gốc của tấm sét hay các hiện vật khác, vấn đề vốn trước nay phải dựa vào phân tích hóa học./.

Theo UChicagonews

Hay!!

Việt Nam thịnh vượng

Họ tên:

Email:

Bình luận:

Bình luận

TIN CÙNG CHUYÊN MỤC

Tin đọc nhiều

Bộ đội ta chế tạo máy thông tin từ chiến lợi phẩm của quân Mỹ như thế nào?

08:55 AM - 26/06/2024

Trần Việt Hùng sinh năm 1932, quê ở huyện Mỏ Cày, tỉnh Bến Tre. Năm 16 tuổi, anh tham gia công tác thông tin của Tỉnh ủy Bến Tre. Từ năm 1965, Trần Việt Hùng được điều sang phụ trách thông tin của...

Ngôi chùa nào cổ nhất Việt Nam?

09:37 AM - 01/07/2024

Chùa Dâu tọa lạc tại xã Thanh Khương, huyện Thuận Thành, tỉnh Bắc Ninh. Đây là một địa điểm du lịch tâm linh hấp dẫn ngay gần Hà Nội.

Nhật Bản phát minh gián lai robot cứu hộ động đất

04:12 PM - 02/07/2024

Trong trường hợp một trận động đất lớn xảy ra và có người mắc kẹt dưới lớp đất đá sụp đổ, một bầy gián lai robot ắt hẳn sẽ là lực lượng phản ứng hiệu quả trong việc xác định vị trí các nạn...

Nhà khoa học trẻ với nhiều công bố quốc tế lĩnh vực hóa học

09:34 AM - 03/07/2024

Đoàn Châu Thành Vinh, đam mê hóa học từ thời phổ thông và dành nhiều thời gian nghiên cứu, có nhiều công bố quốc tế khi mới 24 tuổi. Vinh hiện làm trợ giảng tại khoa Khoa học liên ngành, Đại học...

Bí ẩn 5 “họng súng” Sao Hỏa chuyên bắn đá vào Trái Đất

05:09 PM - 04/07/2024

Kết quả phân tích 200 thiên thạch Sao Hỏa từng rơi xuống Trái Đất cho thấy chúng chỉ xuất phát từ 5 địa điểm, là những "vết sẹo" ở Tharsis và Elysium.

Phát hiện đài thiên văn có từ thế kỷ 6 trước Công nguyên

05:18 PM - 05/07/2024

Đài thiên văn tại đền Buto thuộc di chỉ khảo cổ Tell El-Faraeen ở Ai Cập được cho là một trong những đài quan sát đầu tiên trên thế giới.

Giả thuyết mới về cách xây kim tự tháp Ai Cập

05:20 PM - 06/07/2024

Sự hùng vĩ và bí ẩn của kim tự tháp đã quyến rũ chúng ta trong nhiều thế kỷ, song chúng được xây dựng như thế nào đến nay vẫn còn là điều khó hiểu.

Hydro xanh - xu hướng đầu tư phát triển năng lượng sạch ở nhiều nước

05:24 PM - 07/07/2024

Bên cạnh các nguồn năng lượng tái tạo như điện gió, điện mặt trời, hydro được các nhà khoa học gọi là năng lượng của tương lai.

Nhà thơ duy nhất của Việt Nam từng được đề cử giải Nobel Văn học là ai?

04:32 PM - 08/07/2024

Nhà thơ này là gương mặt nổi bật trong phong trào Thơ mới, từng được gọi là “Thi bá Việt Nam”. Cho đến nay, ông vẫn là nhà thơ duy nhất của nước ta được đề cử giải Nobel.

Việt Nam tham dự Đại hội đồng WIPO 2024

03:03 PM - 09/07/2024

Đoàn Việt Nam tham dự kỳ họp lần thứ 65 Đại hội đồng các quốc gia thành viên của Tổ chức Sở hữu trí tuệ thế giới (WIPO) khai mạc sáng 9/7 tại Geneva, Thụy Sĩ.

Góc nhìn đa diện

Phát huy vai trò của nhà giáo theo tư tưởng Hồ Chí Minh

10:55, 19/11/2024

Nhà giáo là nhân tố quyết định đến sự nghiệp “trồng người”, nên Bác Hồ luôn nhắc nhở giáo viên thường xuyên rèn đức luyện tài, phải vừa hồng vừa chuyên mới hoàn thành tốt sứ mệnh vẻ vang đó của mình.

Phê phán quan điểm “chủ nghĩa Mác – Lênin phủ nhận quyền tự do cá nhân”

(06:38, 08/11/2024)

Bảo đảm an ninh con người ở Việt Nam hiện nay

(01:24, 30/10/2024)