Chờ Mạng từ tiếng Việt… để xử lí tiếng Việt tự động

04:10, 07/10/2015
.

Hiện nay trên thế giới, các ứng dụng công nghệ như nhận dạng tiếng nói, tổng hợp tiếng nói, tìm kiếm thông tin, phân loại văn bản tự động, trích rút thông tin tự động, tóm tắt văn bản tự động, dịch tự động... không còn xa lạ. Để thực hiện được điều này, máy tính đòi hỏi cần phải có một nguồn cơ sở ngữ liệu không chỉ đủ lớn mà còn đáng tin cậy.


Tuy nhiên với tiếng Việt, các ứng dụng trên chưa phong phú và đạt độ chuẩn nhất định. Chính vì thế Mạng từ tiếng Việt ra đời, hứa hẹn sẽ là một tài nguyên từ vựng tiếng Việt trực tuyến đạt chuẩn quốc tế lớn nhất, hệ thống nhất, và hữu hiệu nhất trong cộng đồng nghiên cứu tiếng Việt và xử lý tiếng Việt.
 
Để xử lí ngôn ngữ tiếng Việt, các nhà Khoa học máy tính đang chủ yếu dựa vào các kho ngữ liệu là VietTreebank, Từ điển VCL (Vietnamese Computational Lexicon), một số từ điển tiếng Việt. Thực tế tại các kho ngữ liệu này, mặc dù đã được xây dựng khá cẩn thận, chu đáo theo những tiêu chí khá nghiêm ngặt nhưng hiện vẫn còn một số hạn chế và vẫn chưa thực sự đáp ứng được nhu cầu có thể sử dụng để phát triển hơn nữa các ứng dụng liên quan đến xử lí ngôn ngữ tiếng Việt như đã nêu ở trên.

Chính vì thế một nhóm các nhà khoa học trong lĩnh vực Khoa học máy tính và Ngôn ngữ học Việt Nam đã bắt tay nghiên cứu xây dựng Mạng từ tiếng Việt, một cơ sở ngữ liệu có thể khắc phục được các điểm còn yếu và thiếu của các cơ sở ngữ liệu khác trong vấn đề xử lí ngôn ngữ tiếng Việt. Công việc này được thực hiện trong khuôn khổ của một đề tài cấp Nhà nước. Đó là đề tài: “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt” mã số “KC.01.20/11-15” thuộc chương trình KC.01/11-15 do Bộ KH& CN quản lí và Công ty Naiscorp thực hiện.

Dự kiến, cuối năm 2015, Mạng từ tiếng Việt sẽ hoàn thành và được đưa vào sử dụng trên trang web http://wordnet.vn. Ki đó có thể được ứng dụng vào nhiều công việc khác nhau, như một loạt công việc liên quan đến việc xử lí tiếng Việt bằng máy tính như dịch máy, phân tích văn bản tự động, tóm tắt văn bản tự động, tìm kiếm thông tin… sẽ được thực hiện dễ dàng, hiệu quả và nhanh chóng hơn. Bên cạnh đó nhiều công việc có tính ứng dụng khác cũng sẽ cần đến Mạng từ tiếng Việt như việc xây dựng các loại từ điển ngữ văn tổng hợp và chuyên ngành tiếng Việt, việc nghiên cứu ngôn ngữ và văn hoá Việt Nam, việc so sánh tiếng Việt với các ngôn ngữ khác, việc giảng dạy tiếng Việt…

Không chỉ vậy khi Mạng từ tiếng Việt hoàn thành, nó có thể kết nối với các mạng từ khác trên thế giới để hình thành một từ điển song ngữ hay đa ngữ. Hiện nay, theo Hiệp hội mạng từ toàn cầu, trên thế giới hiện có hơn 70 mạng từ đơn ngữ và đa ngữ như: Mạng từ tiếng Nga (RussNet), Mạng từ tiếng Trung (Chinese WordNet), Mạng từ tiếng Thái (Thai WordNet), Mạng từ tiếng Hindi (Hindi WordNet), Mạng từ tiếng Sanskrit (Sanskrit Wordnet), Mạng từ các ngôn ngữ châu Âu (EurowordNet), Mạng từ châu Á (Asian WordNet)…

 

Theo Báo SGGP
 


.