ศ. ดร. ธนารักษ์ ธีระมั่นคง
ภาคีสมาชิก
ปัจจุบัน ปี ๒๕๖๒ นี้ การพัฒนาด้านการประมวลผลภาษาธรรมชาติได้ก้าวหน้าไปหลายด้าน. โดยทั่วไปเราการจัดการภาษาธรรมชาติจะมีทั้งหมด ๔ โหมดด้วยกัน คือ
- โหมดข้อความ (Text): การสืบค้นและค้นคืนข้อมูล
- เสียงพูด (Speech): การพูดแล้วพิมพ์ พิมพ์แล้วพูด
- ภาพตัวอักษร (Character Image): การเข้าใจภาพตัวอักษรพิมพ์และเขียน
- เนื้อหาสาระ (Substance): การเข้าใจความหมายข้อความ
ปัจจุบันเครื่องมือที่ใช้ในการจัดการภาษามีต้องแต่ระดับโปรแกรมไปจนถึงระดับแอพพลิเคชั่น. โดยเฉพาะ แอพพลิเคชั่น ปัจจุบันนับเฉพาะบริการจากกูเกิ้ล (Google) ก็มีหลากหลายแอพพลิเคชั่น ตั้งแต่ ตัวค้นคืนข้อมูลที่เรียกว่า เสิร์ชเอนจิน (search engine) โปรแกรมรู้จาเสียงพูด (Speech Recognition & Speech Typing) โปรแกรมแปลงภาพอักษรให้เป็นข้อความ (Character Image Recognition – OCR) โปรแกรมแปลภาษา (Translator), โปรแกรมย่อความ (Summarizer) เป็นต้น. นอกจากนี้ ใน คลาวด์เซอร์วิสของกูเกิ้ล (google cloud service) ก็มีแอพพลิเคชั่นที่ไม่ได้เกี่ยวข้องกับภาษาก็อีกมากมาย เช่น โปรแกรมวิเคราะห์และทาเหมืองข้อมูล (data analytics and data mining) โปรแกรมเกี่ยวข้องกับอินเตอร์เน็ตของทุกสรรพสิ่ง (Internet of Things – IoT) โปรแกรมจัดเก็บข้อมูลในฐานข้อมูลและคลังข้อมูล (data storage and database) โปรแกรมที่เกี่ยวข้องกับการวิจัยพัฒนาแอพพลิเคชั่นทั้งการวิเคราะห์ข้อมูลขนาดใหญ่และปัญญาประดิษฐ์ (Google CoLab) เป็นต้น งานวิจัยเกี่ยวกับภาษไทยในเมืองไทยเรามีความก้าวหน้าไปได้ระดับหนึ่ง แต่ในอนาคตเราคงต้องเพิ่งพาระบบคลาวด์เซอร์วิสจากบริษัทและค่ายต่างๆ ในต่างประเทศ เช่น Google, IBM, Microsoft เป็นต้น