ย้อนไปในประเทศไทยก่อนที่จะมีวิกฤติต้มยำกุ้ง เมื่อ พ.ศ. 2530-2539 ถือว่าประเทศไทยมีการเติบโตทางเศรษฐกิจสูงมาก ทั้งจากการลงทุนจากต่างประเทศหลังข้อตกลงพลาซ่า (Plaza Accord) ญี่ปุ่นย้ายฐานการผลิตมาในประเทศไทยด้วย ทำให้เดิมประเทศไทยมีเศรษฐกิจที่เน้นเกษตรกรรมหันมาเน้นการส่งออกสินค้าอุตสาหกรรมอย่างสิ่งทอ ชิ้นส่วนรถยนต์ ถือว่าเป็นการเติบโตอย่างก้าวกระโดด เมื่อมีการขยายตัวทางเศรษฐกิจกับต่างประเทศ การวิจัยและนวัตกรรมย่อมขับเคลื่อนไปพร้อม ๆ กับความต้องการของสังคม มจธ.ขณะนั้นยังมีชื่อเป็นสถาบันเทคโนโลยีพระจอมเกล้าธนบุรี (สจธ.) ได้รับโครงการย่อย ชื่อว่า โครงการ "การพัฒนาระบบรวมเพื่อการแปลภาษาด้วยเครื่องคอมพิวเตอร์" หนึ่งในโครงการแปลภาษาด้วยเครื่องคอมพิวเตอร์
บุญเจริญ ศิริเนาวกุล, 2531 โครงการย่อยดังกล่าวเป็นโครงการร่วมระหว่างไทยและญี่ปุ่น สนับสนุนจากศูนย์อิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ กระทรวงวิทยาศาสตร์สมัยนั้น เมื่อ พ.ศ. 2531-2536 โดยการจะแปลภาษาระหว่างไทย-ญี่ปุ่น ญี่ปุ่น-ไทย อาศัยกลวิธีการแปลโดยใช้ภาษากลาง ในช่วงนั้นมีกลวิธีการออกแบบระบบ (MT-Machine Translation) การแปลภาษาด้วยเครื่องมี 3 แบบ ได้แก่ การแปลโดยตรง การแปลแบบถ่ายทอด และการแปลโดยใช้ภาษากลาง ซึ่งการแปลโดยใช้ภาษากลางในขณะนั้นยังคงเป็นเรื่องที่ห่างไกลความเป็นจริงจะทำได้ เพราะกลวิธีการแปลโดยตรงจะมีขั้นตอนการทำงานน้อยที่สุดแต่ก็ได้ผลคลาดเคลื่อนที่สุด ในขณะที่กลวิธีแบบถ่ายทอด และแบบภาษากลางน่าเชื่อถือมากกว่าแต่ก็ซับซ้อนกว่า เพราะต้องใช้กำลังคน และค่าใช้จ่ายมาก แต่ว่าการแปลมากกว่าสามภาษาขึ้นไปง่ายต่อการแปลในระบบนี้
จากการย้อนดูบริบทของสังคมไทย และการศึกษาเอกสารโครงการของศาสตราจารย์บุญเจริญ ศิริเนาวกุล ทำให้เราขอไปสัมภาษณ์เก็บข้อมูลเพิ่มเติม
จึงทำให้เราทราบว่า โปรเจคย่อยในเอกสารนั้น จริง ๆ เป็นโปรเจคที่ใหญ่มาก จากการจะแปลไทย-ญี่ปุ่น ญี่ปุ่น-ไทย ที่ใช้ระบบแปลโดยใช้ภาษากลาง มีการ Spin-Off ออกมาทำเป็นเครื่อง Dictionarator แปลภาษาอังกฤษ-ไทย โดยใช้พจนานุกรมฉบับ ส.เสธบุตร เมื่อขยายความการใช้กฎการแปลจากการแปลตรงสู่การแปลด้วยระบบภาษากลางซึ่งต้องใช้ปัญญาประดิษฐ์ (AI) อาจารย์จึงขยายความให้ว่า
ถ้าจะให้เล่าให้ฟังก็ได้ สมัยก่อนเครื่องคอมพิวเตอร์มันยังไม่เก่ง การประมวลผลมันช้ามาก เพราะฉะนั้น การทํางานแบบตัวแปลภาษาทุกอย่างเป็นกฎ ยกตัวอย่าง ไวยากรณ์ไทย เราต้องมาเขียนเป็นกฎ ให้กับตัวซอฟต์แวร์คอมพิวเตอร์ ให้เอากฎเหล่านี้ไปประมวลผล เรียกออกมาได้อย่างเข้าใจ ไปอนุมานจากกฎเพื่อดูว่า มันจะทําการแปลอย่างไร ในสมัยนั้นสำหรับภาษาไทย ถ้าผมจําไม่ผิดนะ มันมีพันกว่ากฎเอง ซึ่งมันก็ครอบคลุมแค่ตําราที่นักภาษาศาสตร์เขาใช้ แต่มนุษย์คนไทยที่ใช้จริงมีการใช้แบบระบุกฎได้มากกว่าในตำรา แล้วตําราก็ไม่ได้รวบรวมไว้เยอะมาก งั้นพอเราเอาความรู้แค่มีอยู่ในตําราไปใช้จริง พอให้คอมพิวเตอร์ทํามันจึงปรากฏว่าทำได้ไม่ค่อยดีนัก
ในแวดวงวิชาการที่แลกเปลี่ยนเกี่ยวกับประสิทธิภาพของการแปล อาจารย์เล่าว่า "เขาบอกว่า การที่จะให้เครื่องคอมพิวเตอร์แปลภาษาได้ดี มันต้องใส่ไวยากรณ์ให้ครบ แล้วถึงจุดหนึ่งเราก็บอกว่ามันครบยากมากเลย ยกตัวอย่างเช่น ในภาษาของพวกเอสกิโม มีคําว่าหิมะตั้ง 32 แบบ นั่นคือ 32 ชนิดนะ ในขณะนี้ที่ญี่ปุ่นมีประมาณ 10 หรือ 12 แบบ แต่ภาษาไทยมีชนิดเดียวคือ หิมะ แล้วเราจะระบุอย่างไร ไม่รู้จะแปลเป็นภาษาญี่ปุ่นคําไหน นอกจากนี้อย่างคำบางคำที่ภาษาไทยมีใช้เยอะเป็นทั่วไปเลย แต่ไม่รู้ว่าจะใช้ในภาษาอื่น ๆ อย่างไร เช่นคำว่า เกรงใจ มันก็ต้องไปหาบริบทของกฎที่มาอธิบายบริบทของคําเนี่ยแล้วก็แปลไป มันก็จะยากพอสมควร
2 ฟากแนวคิดระหว่าง กฎ กับ สถิติ
"ยุคที่ผมทําวิจัยมันมีการเถียงกันระหว่างแนวคิดของสหรัฐอเมริกากับแนวคิดของญี่ปุ่น ญี่ปุ่นจะเชื่อในแนวคิดของการใช้กฎของการแปล เพิ่มกฎลงไปในการแปลเรื่อย ๆ ในขณะที่ทางแนวคิดของสหรัฐฯ จะเชื่อในการใช้สถิติมากกว่า แต่คอมพิวเตอร์ยังไม่มีประสิทธิภาพมากนักในยุคนั้นจึงพิสูจน์ไม่ได้ว่า สถิติมันแปลได้ดีกว่า จนกระทั่งมาถึงยุคนี้ไม่กี่ปีก่อนเท่านั้นที่พิสูจน์ได้ว่าสถิติดีกว่าการเพิ่มกฎของไวยากรณ์แน่นอน"
อาจารย์อธิบายถึงหลักการการแปลในแบบเชิงสถิติ
ในหนังสือดิกชั่นนารีเช่น Dictionary for Learners' มันจะมี Collocations (Words that go together) คำที่มักจะเกิดคู่กัน เช่น คำว่า ไป อาจจะเกิดคู่กับ เที่ยว กิน เช่น ไปเที่ยว ไปกิน แบบนี้ เพราะฉะนั้นตัวหลักการก็รวมเว็บไซต์ทั่วโลกมาแล้วมาหาคำที่เกิดใกล้กันเยอะน้อย กำหนดเป็นสถิติไว้ทั้งหมด เมื่อรู้สถิตินี้ทั้งหมด เขาจะรู้ ความหมายที่มันเชื่อมกันของคํา ทุกคําที่อยู่บนโลก เช่น คำว่า ฉัน และ ข้าว ระบบอาจจะเดาไปในทางคำว่า กิน แล้ว โดยมาจากการใช้ค่าจากสถิติที่ห่างกันของคำเหล่านี้ซึ่งเป็นข้อมูลไปเทรนด์ AI ทำให้รู้ว่า คําที่ห่างไปหนึ่งคํามีคำว่าอะไรบ้าง สองคำมีอะไรบ้าง ไปถึง 500 คำ ก็เป็นบทย่อในบทความหนึ่งแล้วนะ ถือว่า เค้าสามารถสร้างบทความให้เราได้หนึ่งบทความเลย
เมื่อมาถึงตรงนี้จึงว้าวกับบรรทัดนั้นในเอกสารโครงการสมัย พ.ศ. 2531 ของอาจารย์มาก ๆ ที่ว่า "การสร้างเอมทีแบบภาษากลางนั้นเป็นเรื่องที่ห่างไกลจากความเป็นจริงและยังต้องอาศัยความพยายามอีกมาก ดังนั้นการวิจัยด้านเอมทีในปัจจุบันจึงมุ่งไปที่การแปลแบบถ่ายทอด แต่สำหรับการวิจัยในระยะยาวแล้วก็ยังคงมุ่งไปที่ภาษากลาง ความเห็นสำหรับเรื่องนี้ในปัจจุบันยังคงเป็นเรื่องที่จะตอบได้ว่าเป็นความจริงหรือไม่"
เพราะในปี 2568 นี้จากคำสัมภาษณ์ของศาสตราจารย์บุญเจริญ ศิริเนาวกุล ทำให้เราได้คำตอบแล้ว
บรรณานุกรม
บุญเจริญ ศิริเนาวกุล. โครงการการพัฒนาระบบรวมเพื่อการแปลภาษาด้วยคอมพิวเตอร์ ปี 2531.
บุญเจริญ ศิริเนาวกุล, พิพัฒน์ ศุภศิริสันต์, & นวลทิทย์ ตันติเศวตรัตน์. (2534). การพัฒนาซอฟท์แวร์เพื่อการแปลภาษา ระยะที่ 1 =: Software development for language translation phase I. กรุงเทพฯ: สถาบันเทคโนโลยีพระจอมเกล้าธนบุรี.
(บุญเจริญ ศิริเนาวกุล, นักวิจัยที่น่ารู้จัก, 3 ธันวาคม 2568).
ประชาชาติธุรกิจ. 2567. รู้จัก พลาซา แอคคอร์ด ที่ทำให้ญี่ปุ่นย้ายฐานผลิตมาอาเซียนและไทยได้ประโยชน์สูงสุด. สืบค้นเมื่อ 1 ธันวาคม 2568. URL: https://today.line.me/th/v3/article/oqrKP0N.
Categories
Hashtags