\documentclass[letter]{article} \textwidth=16cm \oddsidemargin=0cm \evensidemargin=0cm \topmargin=-2.5cm \textheight=23cm \newsavebox{\savepar} \newenvironment{boxit}{\begin{lrbox}{\savepar} \begin{minipage}[b]{\textwidth}} {\end{minipage}\end{lrbox}\fbox{\usebox{\savepar}}} \usepackage[thai,thainumber]{babel} \usepackage{fonts-tlwg} \title{ \textbf{ทรัพยากรเปิดทางภาษาสู่ความร่วมมือของการวิจัยและพัฒนา}\\ \textbf{The Open linguistic Resources CHanelled toward InterDisciplinary research (ORCHID)} } \author{ ดร.วิรัช ศรเลิศล้ำวาณิช\\ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ\\ กระทรวงวิทยาศาสตร์ เทคโนโลยีและสิ่งแวดล้อม\\ {\latintext\ttfamily virach@links.nectec.or.th, http://www.links.nectec.or.th/virach/home.html} } \date{\today} \begin{document} \bibliographystyle{srt} \maketitle \section{บทนำ} \textbf{ORCHID} เป็นแผนงานเพื่อสนับสนุนการร่วมกันสร้าง, การร่วมกันใช้, และการ% ร่วมกันพัฒนาทรัพยากรทางภาษาของภาษาไทย, บนเครือข่าย World Wide Web. แผนงานนี้มี% จุดประสงค์หลักอยู่สองประการคือ \textbf{เพื่อแก้ปัญหากำแพงทางภาษา, และรักษา% ไว้เพื่อความคงอยู่ของภาษาและวัฒนธรรมไทย.} เราตระหนักดีถึงความสำคัญของภาษา ซึ่งนอกจากจะเป็นสื่อระหว่างคนกับคนแล้ว ยังเป็น% รูปแทนความคิด และเป็นเครื่องมือในการใช้ความคิดด้วย. เครือข่ายคอมพิวเตอร์% ในปัจจุบันทำให้ข้อมูลข่าวสารแพร่หลายไปอย่างรวดเร็ว. เครื่องมือที่ใช้ในการแสดงผล% และการเตรียมข้อมูลข่าวสารนั้น จึงเป็นสิ่งจำเป็น. ด้วยเทคโนโลยีที่ก้าวหน้าไป% อย่างรวดเร็ว, การที่เพียงจะสามารถแสดงผลได้หรือป้อนข้อมูลได้เท่านั้น ไม่เป็นที่% เพียงพออีกแล้ว. การแสดงผลที่สวยงามถูกต้องตามแบบแผน หรือการเตรียมข้อมูลได้อย่าง% ถูกต้อง และรวดเร็วจึงเป็นสิ่งที่จำเป็นที่จะต้องพัฒนาให้ทันตามการเปลี่ยนแปลงของ% เทคโนโลยี. ทรัพยากรทางภาษานอกจากจะเป็นแหล่งข้อมูลที่สำคัญแล้ว ยังเป็นปัจจัยที่สำคัญอันหนึ่ง% สำหรับการศึกษาธรรมชาติของภาษา ซึ่งรวมถึงไวยากรณ์, คำศัพท์, และลักษณะของภาษา. ฉะนั้น \textit{การรวบรวมข้อมูลอย่างมีระบบ} จึงมีความสำคัญยิ่ง. การศึกษาธรรมชาติ% ของภาษาได้ก้าวหน้าไปมากพร้อมๆ กับการพัฒนาของระบบคอมพิวเตอร์และอัลกอริทึมในการ% คำนวณ. ความเอื้ออำนวยของเทคโนโลยีทางการประมวลผลทำให้เราสามารถศึกษาลักษณะของภาษา% ได้จากข้อมูลปริมาณมากๆ ได้ในเวลาอันรวดเร็ว. ผลที่ได้คือเราสามารถสรุปความรู้ทาง% ภาษาจากข้อมูลจริงได้อย่างแม่นยำและครอบคลุม. ซึ่งผิดจากเมื่อในอดีตที่จำเป็นต้อง% พิจารณาจากความรู้ของตนเองเป็นหลัก, ศึกษาได้แต่ในวงแคบๆ และไม่สามารถตรวจสอบ% ความถูกต้องได้อย่างครอบคลุม. ฉะนั้น \textbf{\textit{การรวบรวมข้อมูลที่มีปริมาณ% มากพอและทันสมัย}} จึงเป็นปัจจัยสำคัญอีกอย่างหนึ่ง. จากแนวโน้มของการพัฒนาของเทคโนโลยีสารสนเทศ และเพื่อการเตรียมพร้อมเพื่อการ% วิจัยและพัฒนาดังที่กล่าวมาข้างต้น, ผู้เขียนได้คิดถึงแนวทางอันหนึ่งในการที่จะ% ส่งเสริมการพัฒนาโดยอาศัยมันสมองจากผู้รู้ผ่านเครือข่ายที่กำลังแพร่หลายอยู่ในทุก% วันนี้. ในบทความนี้ ผู้เขียนจึงได้เสนอแนวคิดของแผนงาน \textbf{ORCHID (The Open linguistic Resources CHanelled toward InterDisciplinary research)} ที่ได้รวมการ% เตรียมพร้อมของข้อมูลและการประยุกต์ใช้งานเข้าด้วยกัน, เพื่อรองรับการพัฒนาของ% เทคโนโลยีสารสนเทศสู่อนาคต. \section{ข่าวสารบนเครือข่าย} ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก% สาเหตุที่สำคัญสองประการคือ ๑) ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไป% สามารถเข้าถึงระบบได้โดยง่าย, และ ๒) การพัฒนาของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือ% ข่าย ดังเช่น Web browser, ระบบสืบค้นข้อมูลบนระบบเครือข่าย, และอื่นๆ อีกมากมาย% ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและรวดเร็ว. HTML (HyperText Markup Language)~\cite{html} ได้ถูกกำหนดขึ้นมาเพื่อใช้ในการกำกับข้อความที่จะ% สื่อสารกันบนระบบ WWW. HTML เป็นภาษาที่แตกแขนงออกมาจากต้นตำรับของภาษาเพื่อการ% กำกับ (markup language) ที่รู้จักกันดีในชื่อของ SGML (Standard Generalized Markup Language)~\cite{sgml}. การใช้ภาษาเพื่อการกำกับนี้จะทำให้ข้อความ% อิเล็กทรอนิกส์ (eletronic text) มีลักษณะพิเศษ คือ เป็นข้อความที่ไม่ขึ้นกับระบบ% จัดการ ซึ่งหมายความว่าทุกระบบ, ที่เข้าใจในมาตรฐานของภาษาเพื่อการกำกับ, จะสามารถ% แสดงผลข้อมูลได้อย่างเหมาะสม. บางระบบอาจจะขึ้นบรรทัดใหม่ ดังในรูปที่~% \ref{fig:htmlout1} หรือบางระบบอาจจะย่อหน้า ดังในรูปที่~\ref{fig:htmlout2} เมื่อ% มีการกำกับย่อหน้า ดังเช่นในรูปที่~\ref{fig:html}. แต่ละระบบอาจจะใช้ตัวอักษรขนาด% ต่างๆ กันในการแสดงผลหัวข้อในระดับต่างๆ กันด้วยก็ได้. \begin{figure}[htbp] \begin{center} \begin{boxit} \begin{quote} % \footnotesize \scriptsize \sffamily \hspace*{-3em} {\LARGE \textbf{ข่าวสารบนเครือข่าย}}\\ \hspace*{-3em} ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก% สาเหตุที่สำคัญสองประการคือ\\ ๑. ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้โดยง่าย% \\ ๒. พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบ% สืบค้นข้อมูลบนระบบเครือข่าย,\\ \hspace*{1em} และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ% รวดเร็ว.\\ \end{quote} \end{boxit} \caption{ตัวอย่างการแสดงผลแบบที่หนึ่ง} \label{fig:htmlout1} \end{center} \end{figure} \begin{figure}[htbp] \begin{center} \begin{boxit} \begin{quote} \scriptsize \sffamily \hspace*{-3em} {\LARGE \textbf{\underline{ข่าวสารบนเครือข่าย}}}\\ %\hspace*{2em} ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็เนื่องมาจาก% สาเหตุที่สำคัญสองประการคือ\\ %\hspace*{2em} ก. ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้โดยง่าย% \\ %\hspace*{2em} ข. พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบ% สืบค้นข้อมูลบนระบบเครือข่าย,\\ \hspace*{1em} และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ% รวดเร็ว.\\ \end{quote} \end{boxit} \caption{ตัวอย่างการแสดงผลแบบที่สอง} \label{fig:htmlout2} \end{center} \end{figure} \begin{figure}[htbp] \begin{center} \begin{boxit} \scriptsize \\ \\ \\ ข่าวสารบนเครือข่าย\\ \\ \\ \\

\\ ข่าวสารบนเครือข่าย\\

\\

ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้งนี้ก็% เนื่องมาจากสาเหตุที่สำคัญสองประการคือ

    \\
  1. ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึงระบบได้% โดยง่าย\\
  2. พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบสืบค้นข้อมูลบนระบบเครือข่าย, และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูล% และข่าวสารได้อย่างแม่นยำและรวดเร็ว.\\
\\ \\ \\ \end{boxit} \caption{ข้อความที่กำกับสำหรับ HTML} \label{fig:html} \end{center} \end{figure} ความคิดในการใช้เครื่องหมายร่วมเพื่อการกำกับ (Generic Markup) นั้น เกิดขึ้นมานาน% แล้ว, ตั้งแต่ที่ William Tunnicliffe ได้เสนอต่อที่ประชุมสำนักพิมพ์ของรัฐใน% แคนนาดาเมื่อเดือนกันยายน ๒๕๑๐~\cite{sgml:90}. เมื่อเข้าทศวรรษที่ ๗๐, ก็เริ่มมี% ระบบที่ใช้เครื่องหมายร่วมเพื่อการกำกับเกิดขึ้น, และที่รู้จักกันแพร่หลายก็คือ Scribe ของ Brian Reid, \TeX~\cite{knuth:94} ของ Knuth, \LaTeX~\cite{lamport:94} ซึ่งเป็นการผนวกชุดคำสั่งที่เขียนตามลักษณะของ Scribe โดยนิยามให้เป็น macro ของ \TeX, และ nroff/troff ซึ่งเป็นรุ่นถัดจาก RUNOFF ที่นิยมใช้กันมากบนระบบ UNIX. \begin{figure}[htbp] \begin{center} \begin{boxit} \begin{quote} \scriptsize \hspace*{-3em} $\backslash$section\{ข่าวสารบนเครือข่าย\} \hspace*{-3em} $\backslash$par ในปัจจุบัน, ข้อมูลข่าวสารสามารถแพร่หลายไปได้อย่างรวดเร็ว. ทั้ง% นี้ก็เนื่องมาจากสาเหตุที่สำคัญสองประการคือ \hspace*{-3em} $\backslash$begin\{itemize\}\\ \hspace*{-3em} $\backslash$item ความแพร่หลายของระบบเครือข่าย ที่ทำให้บุคคลทั่วไปสามารถเข้าถึง% ระบบได้โดยง่าย\\ \hspace*{-3em} $\backslash$item พัฒนาการของเทคโนโลยีต่างๆ ที่ใช้บนระบบเครือข่าย ดังเช่น Web browser, ระบบสืบค้นข้อมูลบนระบบเครือข่าย,\\ \hspace*{-3em} และอื่นๆ อีกมากมาย ที่ทำให้สามารถเข้าถึงข้อมูลและข่าวสารได้อย่างแม่นยำและ% รวดเร็ว.\\ \hspace*{-3em} $\backslash$end\{itemize\}\\ \end{quote} \end{boxit} \caption{ข้อความที่กำกับสำหรับ \TeX\ หรือ \LaTeX} \label{fig:latex} \end{center} \end{figure} \begin{figure}[ht] \begin{center} \begin{boxit} \begin{quote} \scriptsize \hspace*{-3em} .TH PWD 1L "GNU Shell Utilities" "FSF" $\backslash$" -*- nroff -*-\\ \hspace*{-3em} .SH NAME\\ \hspace*{-3em} pwd $\backslash$- print name of current/working directory\\ \hspace*{-3em} .SH SYNOPSIS\\ \hspace*{-3em} .B pwd\\ \hspace*{-3em} .br\\ \hspace*{-3em} .B pwd\\ \hspace*{-3em} \{$\backslash$-$\backslash$-help,$\backslash$-$\backslash$-version\}\\ \hspace*{-3em} .SH DESCRIPTION\\ \hspace*{-3em} This manual page documents the GNU version of\\ \hspace*{-3em} .BR pwd .\\ \hspace*{-3em} .B pwd\\ \hspace*{-3em} prints the fully resolved name of the current directory. That is, all components of the printed name will\\ \hspace*{-3em} be actual directory names $\backslash$-$\backslash$- none will be symbolic links.\\ \hspace*{-3em} .PP\\ \hspace*{-3em} Note that most Unix shells provide a built-in\\ \hspace*{-3em} .B pwd\\ \hspace*{-3em} command with similar functionality so the unadorned, interactive\\ \hspace*{-3em} .B pwd\\ \hspace*{-3em} command will usually execute the built-in version and not this one.\\ \hspace*{-3em} .SS OPTIONS\\ \hspace*{-3em} .TP\\ \hspace*{-3em} .I "$\backslash$-$\backslash$-help"\\ \hspace*{-3em} Print a usage message on standard output and exit successfully.\\ \hspace*{-3em} .TP\\ \hspace*{-3em} .I "$\backslash$-$\backslash$-version"\\ \hspace*{-3em} Print version information on standard output then exit successfully.\\ \end{quote} \end{boxit} \caption{ข้อความที่กำกับสำหรับ nroff} \label{fig:nroff} \end{center} \end{figure} ดูเหมือนว่า \LaTeX\ จะประสบความสำเร็จในการแยกข้อมูลที่บอกโครงสร้างของบทความ% ออกจากข้อมูลที่เป็นเนื้อของบทความ. แต่อย่างไรก็ตามสัญลักษณ์ในการกำกับของ \LaTeX\ ก็ยังเป็น macro ที่ประกอบด้วยชุดของคำสั่ง ซึ่งผู้ใช้สามารถเลือกกำกับด้วย% คำสั่งได้โดยตรง. เหล่านี้เป็นตัวที่ทำให้ \TeX\ หรือ \LaTeX\ มีส่วนที่จะต้องขึ้น% อยู่กับระบบอีก. ภาษาเพื่อการกำกับที่คาดหวังกันไว้นั้น จะเป็นตัวกำกับโครงสร้างของข้อความเพื่อให้% ระบบสามารถจัดพิมพ์ หรือ แสดงผลได้ตามรูปแบบของตนเอง โดยไม่มีส่วนที่ต้องขึ้นกับ% ระบบอีกต่อไป. ปัจจุบันนี้มีการกำหนดมาตรฐานของภาษาเพื่อการกำกับขึ้นมาใหม่, เรียก% ว่า XML (eXtensible Markup Language)~\cite{xml} เพื่อให้สะดวกต่อการใช้มากขึ้น% กว่า SGML. XML เป็น subset ของ SGML, เป็นภาษาที่ออกแบบไว้เพื่อใช้ในการสื่อสารบน% เครือข่ายโดยเฉพาะ. XML ต่างจาก SGML ตรงที่มีการคำนึงถึงปัญหาต่างๆ ซึ่งอาจจะเกิด% ขึ้นได้ในระหว่างการติดต่อผ่านเครือข่าย. XML จึงมีความยืดหยุ่นมากในการกำกับ และ% ผู้ใช้สามารถกำกับให้รวบรวมข้อความหรือข้อมูลจากที่ต่างๆ พร้อมทั้งบอกลักษณะของข้อ% ความหรือข้อมูลเหล่านั้นได้ด้วย. เหล่านี้ทำให้ XML เหมาะสำหรับการบันทึกข้อมูล เนื่องจากว่ามีความยืดหยุ่นพอที่จะสามารถอธิบายโครงสร้างทางตรรกศาสตร์ (logical structure) ของข้อความต่างๆ ได้, ไม่ว่าจะเป็นแบบฟอร์ม (form), บันทึก (memo), จดหมาย (letter), รายงาน (report), หนังสือ (book), สารานุกรม (encyclopedia), พจนานุกรม (dictionary) หรือฐานข้อมูล (database). ผู้เขียนจึงขอสรุปไว้ในตอนท้ายของบทนี้ว่า ในการบันทึกข้อมูลต่อไปในอนาคตนั้น, เรา% จำเป็นต้องคำนึงถึงเงื่อนไขในการใช้งานบนเครือข่ายด้วย. เครือข่ายที่พูดถึงตรงนี้ก็% เป็นเครือข่ายสากล (Global Network; World Wide Web), ไม่ได้จำกัดอยู่เพียงเครือ% ข่ายท้องถิ่น (Local Area Network) อีกต่อไปแล้ว. การจัดเก็บข้อมูลที่เหมาะสมนั้นก็% ควรจะต้องมีเนื้อหาของข้อความ (plain text) และข้อมูลของโครงสร้างทางตรรกศาสตร์ (logical structure) กำกับไว้เพื่อที่จะให้ข้อมูลนั้นๆ เป็นอิสระจากอุปกรณ์ (device) และระบบ (system). การจัดเก็บข้อมูลในลักษณะนี้จะแตกต่างจากวิธีการเก็บแบบ% เก่า ที่ไม่ได้แยกข้อมูลสำหรับบอกลักษณะของการจัดพิมพ์ หรือแสดงผลออกจากข้อความ, ดังเช่นไฟล์ข้อมูลที่ใช้ใน Wordprocessor ทั่วไป, nroff/troff, หรือที่เป็นเพียงบาง% ส่วน ดังเช่นไฟล์ข้อมูลที่ใช้ใน \TeX\ หรือ \LaTeX\ ตามที่กล่าวไว้ข้างต้น เป็นต้น. การเก็บข้อมูลด้วยวิธีหลังนี้ค่อนข้างตรง, สะดวกต่อการแก้ไขและแสดงผล. แต่% เนื่องจากข้อความประเภทนี้จะมีแต่ข้อมูลที่เกี่ยวกับลักษณะของการแสดงผลเท่านั้น, ไม่มีข้อมูลที่เกี่ยวกับโครงสร้าง หรือข้อมูลที่แสดงความสัมพันธ์ภายในข้อความ จึง% ไม่เหมาะที่จะใช้ในการประมวลผล. การแสดงผลนั้นจะต้องขึ้นอยู่กับระบบเป็นส่วนใหญ่ และเมื่อเกิดการแก้ไขการแสดงผลผู้ใช้ก็จำเป็นที่จะต้องแก้ไขรายละเอียดทั้งหมดให้สอด% คล้องกัน. \section{ความเป็นจริงของภาษาที่สะท้อนจากข้อมูลจริง} กล่าวกันว่าในโลกนี้มีภาษาที่ใช้กันอยู่มากกว่า ๓,๕๐๐ ภาษา~\cite{enc-ling:88}, ภาษาที่ตายไปแล้วก็มีอยู่มาก. ``ภาษาเป็น'' เท่านั้นที่ยังมีการเปลี่ยนแปลงอยู่. ในที่นี้ผู้เขียนจะไม่กล่าวถึงทฤษฎีหรือไวยากรณ์ของภาษา, แต่จะชี้ให้เห็นถึงความ% สำคัญในการที่จะต้องศึกษาภาษาจากที่ใช้กันอยู่จริง. ขณะนี้เรามีพจนานุกรมให้เลือกใช้กันอยู่มากมาย. กระนั้นก็ตามพจนานุกรมที่เรายึดถือ% ใช้กันเป็นหลักอยู่ในตอนนี้ก็คือ พจนานุกรมฉบับราชบัณฑิตยสถาน. อาจเป็นเพราะว่าเป็น% พจนานุกรมที่ได้รับการกลั่นกรองและตรวจสอบอย่างระมัดระวังมากที่สุดฉบับหนึ่ง จึงได้% รับการอ้างอิงมาก, โดยเฉพาะในการตรวจสอบความถูกต้องของภาษาไทย. แต่ไม่ว่าจะเนื่อง% ด้วยสาเหตุใดก็ตาม, จำนวนคำศัพท์ที่ปรากฏอยู่ในฉบับ พ.ศ.๒๕๒๕ นั้นยังมีอยู่จำกัด% มาก (ประมาณ ๓๐,๐๐๐ คำ). จากที่ได้ทดลองสุ่มตรวจดูแล้ว ผู้เขียนพบว่าคำส่วนใหญ่ใน% พจนานุกรมฉบับราชบัณฑิตยสถานจะเป็นคำย่อยเสียส่วนใหญ่. ส่วนใหญ่จะเป็นคำที่มีจำนวน% พยางค์อยู่ระหว่าง ๒-๔ พยางค์~\cite{ristat}. คำที่ใหญ่ขึ้น, หรือคำประสมนั้น ก็มัก% จะเป็นคำที่มีใช้กันมานานและไม่ค่อยจะปรากฏให้เห็นในบทความที่เขียนขึ้นในปัจจุบัน. ตัวอย่างเช่น ในพจนานุกรมฉบับราชบัณฑิตยสถานมีคำว่า ``ที่'', ``อยู่'', ``คุ้ม'', ``ค่า'', ``ทำ'', ``งาน'', ``ถุง'', ``มือ'', ``ตู้'', และ ``เย็น'', แต่ไม่มี% คำว่า ``ที่อยู่'', ``คุ้มค่า'', ``ทำงาน'', ``ถุงมือ'', และ ``ตู้เย็น''. การกำหนดคำเพื่อที่จะบรรจุในพจนานุกรมนั้นเป็นเรื่องที่จะต้องวิจัยกันอีกมาก. การ% กำหนดคำอาจต้องคำนึงความถี่ของคำที่ปรากฏ ซึ่งอาจจะมองได้สองมุมที่ตรงข้ามกัน คือ: ๑) ความบ่อยครั้งของการใช้สายอักขระนั้นๆ น่าจะเป็นเกณฑ์ที่จะบอกว่านั่นคือ ``คำ'', กับ ๒) สายอักขระที่ไม่ค่อยปรากฏ มักจะยากแก่การใช้หรือเข้าใจ, ฉะนั้นควรจะ% บันทึกไว้เป็น ``คำ''. การจะเลือกวิธีใดนั้น ขึ้นอยู่กับจุดประสงค์ในการเตรียม% พจนานุกรมมากกว่า. แต่เราก็จำเป็นที่จะต้องอ้างอิงคำที่ได้จากทั้งสองวิธี. ผู้เขียน% ได้เสนอการใช้วิธีการทางสถิติมาช่วยในการคัดเลือกคำตามความคิดที่หนึ่ง~% \cite{virach:96}. วิธีการนี้จะให้รายการคำที่น่าจะบันทึกไว้ในพจนานุกรม โดยลำดับ% ตามจำนวนครั้งที่ปรากฏในบทความนั้นๆ. ทั้งนี้ฝ่ายบัญญัติคำศัพท์จะต้องทำการคัดเลือก% อีกครั้ง. ส่วนวิธีการสำหรับการคัดเลือกคำตามความคิดที่สองและการทำให้วิธีการที่% หนึ่งเป็นไปอย่างมีประสิทธิภาพยิ่งขึ้นนั้น ก็เป็นหัวข้อที่จะต้องทำการวิจัยต่อไป. นอกจากคำศัพท์แล้ว, ไวยากรณ์กับการใช้ภาษาก็เป็นหัวข้อที่เราจำเป็นต้องเอาใจใส่. ผู้เขียนได้ยกปัญหาของการใช้ภาษา และสนับสนุนการใช้เครื่องหมายวรรคตอน เพื่อเป็นการ% แก้ปัญหาวิธีหนึ่งมาแล้ว~\cite{sk}. เดิมที, ภาษาไทยนั้นยากต่อการที่จะเขียน% ไวยากรณ์ให้ครอบคลุมอยู่แล้ว. ปัจจุบันนี้ภาษาไทยได้เปลี่ยนแปลงไป ยิ่งทำให้ยากต่อ% การที่จะอธิบายลักษณะการใช้อย่างมีประสิทธิภาพได้. ทำให้ต้องมีข้อยกเว้นมากมาย. วิธีการหนึ่งที่จะทำให้ภาษาเป็นไปตามกฏเกณฑ์ที่รัดกุมได้วิธีหนึ่งก็คือการอาศัย% เครื่องหมายวรรคตอน เพื่อให้ผู้เขียนยึดและคำนึงถึงการเขียนให้เป็นประโยคและรัดกุม% ได้. ผลที่ได้รับจากการพยายามที่จะให้ได้ภาษาที่อิงไวยากรณ์ที่ใกล้เคียงกัน จะทำให้% สามารถรวบรวมการใช้ภาษาได้อย่างมีประสิทธิผล. ผู้เขียนจึงได้สนับสนุนการใช้เครื่องหมาย% วรรคตอน และเสนอให้มีการรวบรวมคลังข้อความ. และเพื่อการแสดงให้เห็นถึงผลของการใช้% ข้อมูลดังกล่าว, ผู้เขียนก็ได้แสดงผลของการใช้งานในโครงการ Emacs เพื่อภาษาไทย และ% การใช้งานในการสร้างระบบเพื่อการแลกเปลี่ยนข้อมูลต่างภาษาในโครงการ UNL. \section{แผนงาน ORCHID} \textbf{ORCHID} เป็นแผนงานเพื่อสนับสนุนการร่วมกันสร้าง, การร่วมกันใช้, และการ% ร่วมกันพัฒนา ทรัพยากรทางภาษาของภาษาไทย, บนเครือข่าย World Wide Web. แผนงานนี้มี% จุดประสงค์หลักอยู่สองประการคือ เพื่อแก้ปัญหากำแพงทางภาษา, และรักษาไว้% เพื่อความคงอยู่ของภาษาและวัฒนธรรมไทย. แผนงานนี้จะรวมถึงการสร้างทรัพยากรทางภาษาโดยให้สอดคล้องตามมาตรฐาน, การศึกษา% วิธีการใช้ข้อมูลทางภาษาเพื่อเป็นประโยชน์ต่อการประมวลผลภาษา, และการพัฒนาระบบ% ประยุกต์เพื่อการใช้งานที่ประโยชน์ต่อสังคม. ทั้งสามประการนี้จะเป็นทั้งการสร้าง, การค้นหาวิธีการ, และการตรวจสอบจากการใช้งานจริง. แผนงานนี้จึงถูกแบ่งออกเป็นสอง% กลุ่ม คือ กลุ่มทรัพยากรพื้นฐาน (Basic Resources) และกลุ่มระบบประยุกต์ (Application Systems) ตามวัตถุประสงค๎ของการวิจัยและพัฒนา. โดยที่ทั้งสองกลุ่มจะ% สนับสนุนซึ่งกันและกัน. \begin{itemize} \item \textbf{Basic Resources:} เป็นการสร้างทรัพยากรพื้นฐานประกอบด้วยสิ่งที่จะ% นำไปใช้ในการศึกษาวิจัยลักษณะของภาษา, และสิ่งที่จะนำไปใช้เป็นองค์ประกอบหนึ่งในการ% พัฒนาระบบประยุกต์. \begin{itemize} \item \textbf{Language Processing Library and Supporting Tools:} เป็นการสร้างองค์ประกอบพื้นฐานทาง Software เพื่อให้สามารถสร้างโปรแกรมประยุกต์ได้% รวดเร็วและอยู่บนมาตรฐานอันเดียวกันได้. จนถึงปัจจุบันส่วนใหญ่ผู้พัฒนาจะทำการพัฒนา% กันอย่างอิสระ โดยไม่มีการแลกเปลี่ยน หรือรวบรวมเพื่อการแก้ปัญหาอย่างถูกต้อง. เมื่อ Software ตัวหนึ่งหายไปจากตลาด, ประสบการณ์และวิธีการต่างๆ ก็หายไปกับ Software ตัวนั้นด้วย. \item \textbf{ORCHID POS Tagged Corpus~\cite{orchid,virach:98,virach:97}:} เป็นการสร้างฐานข้อมูลพื้นฐานทางภาษา ที่มีการกำกับหน่วยที่เป็นคำพร้อมๆ กับหน้าที่% ของคำๆ นั้น. ข้อมูลเหล่านี้จะใช้ในการศึกษา และให้ข้อมูลเกี่ยวกับการใช้คำในภาษา. ปริมาณ, ความถูกต้อง, และความทันสมัยของข้อมูลจึงเป็นปัจจัยที่สำคัญ. \item \textbf{ORCHID Treebank:} เป็นการสร้างฐานข้อมูลพื้นฐานทางภาษา ที่มีการ% กำกับโครงสร้างของประโยคพร้อมๆ กับหน้าที่ของคำๆ นั้นในประโยค. ข้อมูลเหล่านี้จะใช้% ในการศึกษา, และให้ข้อมูลเกี่ยวกับการใช้คำในประโยคและในการสร้างประโยค. ปริมาณ, ความถูกต้อง, และความทันสมัยของข้อมูลจึงเป็นปัจจัยที่สำคัญ. \item \textbf{Markup Language:} เป็นการสร้างภาษาเพื่อการกำกับ ซึ่งอาจจะอิง% การกำกับแบบมาตรฐานสากล เช่น SGML หรือ XML ก็ได้. สิ่งที่ต้องทำคือการนิยามใน% รายละเอียดปลีกย่อย ที่จำเป็นสำหรับการใช้งานในแต่ละด้าน. สิ่งที่สำคัญอย่างยิ่ง ก็% คือในส่วนที่เกี่ยวกับภาษาไทย เช่น แบบฟอร์มจดหมาย, กาพย์, และกลอน เป็นต้น. \item \textbf{Concept Alignment:} เป็นการสร้างระบบหน่วยความหมาย รวมถึง% การนิยามหน่วยความหมายเพื่อการเชื่อมโยงคำระหว่างภาษาด้วย. \end{itemize} \item \textbf{Application Systems:} เป็นการสร้างระบบประยุกต์จากทรัพยากร% พื้นฐาน และการใช้ผลจากการศึกษาทรัพยากรพื้นฐาน. ทั้งนี้จะเป็นตรวจสอบซึ่งกันและกัน% ระหว่างทรัพยากรพื้นฐานที่ได้จากข้อมูลจริงกับระบบประยุกต์ที่ได้พัฒนาขึ้น. \begin{itemize} \item \textbf{UNL (Universal Networking Language):} เป็นโครงการเพื่อ% การพัฒนาระบบสำหรับการแลกเปลี่ยนข้อมูลและข่าวสาร โดยไม่มีพรมแดนทางภาษา. โครงการนี้ได้รวมถึงการใช้ข้อมูลและข่าวสารอย่างมีประสิทธิภาพด้วย เช่นการสืบค้น, การย่อความ, และการนำเสนอ เป็นต้น. \item \textbf{Emacs for Thai:} เป็นการประยุกต์ใช้การประมวลผลภาษาไทยบน% ระบบ Editor ที่ใช้กันอย่างแพร่หลายระบบหนึ่ง. Emacs เป็น Editor ที่มีขีดความ% สามารถสูงมากระบบหนึ่ง และตั้งแต่ version ที่ 20.1 เป็นต้นไป Emacs ยังได้รับการ% พัฒนาให้รวมการประมวลผลแบบหลากภาษาจาก Mule (MULtilingual enhancement to GNU Emacs) เข้าไปด้วย. \item \textbf{LEX\textit{i}TRON:} เป็นการสร้างระบบพจนานุกรมที่สะท้อนจากข้อมูล% จริง. พจนานุกรมฉบับนี้จะให้ข้อมูลทางด้านการใช้คำในการสร้างประโยค, มีการบอก% หน้าที่ของคำอย่างชัดเจน และที่สำคัญคือการเข้าถึงคำศัพท์. ในอนาคตพจนานุกรมฉบับนี้% จะให้ข้อมูลทั้งสองประเภทคือ ข้อมูลเพื่อการเขียน, และข้อมูลเพื่อการแต่งประโยค. โดยจะคำนึงถึงผู้ใช้ที่เป็นเจ้าของภาษา และที่ไม่ใช่. \item \textbf{\LaTeX\ for Thai:} เป็นการประยุกต์ใช้การประมวลผลภาษาไทยบน% ระบบการจัดพิมพ์ที่ใช้กันอย่างแพร่หลายระบบหนึ่ง. ปัจจุบันมีบางส่วนที่ได้รับการ% พัฒนาให้สามารถใช้งานได้บ้างแล้ว~\cite{tlatex}. บทความที่ท่านอ่านอยู่ในขณะนี้ก็% จัดพิมพ์ด้วย \LaTeX\ ที่ได้รับการต่อเติมให้แสดงผลภาษาไทยได้. แม้ว่าระบบนี้จะใช้% การได้ดีทีเดียว, แต่กระนั้นก็ตามผู้เขียนก็ ยังรู้สึกว่ายังมีอีกหลายสิ่งที่ต้อง% พิจารณาแก้ไขและปรับปรุง. \end{itemize} \end{itemize} ในที่นี้ผู้เขียนได้กล่าวถึงลักษณะทั่วไป, โดยไม่ลงในรายละเอียดของแต่ละหัวข้อ% ย่อย, เนื่องจากจะทำให้ใช้เนื้อที่มากเกินไป. ผู้เขียนจะหาโอกาสเพื่อให้รายละเอียด% ต่อไปข้างหน้า, หรือผู้ที่สนใจอาจจะแสดงความคิดเห็นมายังผู้เขียนโดยตรงก็ได้. ความ% คิดเห็นต่างๆ จะทำให้สามารถปฎิบัติได้เร็วและถูกจุดประสงค์มากยิ่งขึ้น. แผนงานที่กล่าวมาทั้งหมดนี้ไม่ใช่เป็นสิ่งที่ผู้เขียนต้องการพัฒนาเองทั้งหมด, หรือ% เป็นเพียงสิ่งที่ผู้เขียนต้องการพัฒนาเท่านั้น. นี่เป็นเพียงการชี้ให้เห็นถึงแนว% โน้ม และแนวทางที่เราสามารถปฎิบัติได้เพื่อจุดประสงค์หลักสองประการคือ \textbf{เพื่อแก้ปัญหากำแพงทางภาษา, และรักษาไว้เพื่อความคงอยู่ของภาษาและวัฒนธรรม% ไทย.} \section{บทส่งท้าย} แผนงาน ORCHID ในบทความนี้เป็นการเริ่มต้นของผู้เขียน. บางโครงการก็กำลังดำเนินการ% อยู่ บางโครงการก็ยังอยู่ในระยะเริ่มต้นที่ผู้เขียนได้ลงมือดำเนินการไปแล้วบ้าง, และบางเรื่องก็ยังเพิ่งอยู่ในห้องทดลอง. ผู้เขียนจะได้นำแผนงานนี้เสนอต่อไปยัง% องค์กรที่เกี่ยวข้อง. จุดประสงค์ของการนำเสนอครั้งนี้ก็เพื่อก่อให้เกิดความเข้าใจ, จะได้ช่วยกันคิด, ช่วยกันส่งเสริมไปในแนวทางที่จะพัฒนาขึ้นได้ต่อๆ ไป. ผู้ใดสนใจ% หรือต้องการแนะนำ, ติดต่อผู้เขียนได้ตาม email ข้างต้น หรือดูข้อมูลเพิ่มเติมได้% ที่ http://www.links.nectec.or.th/virach/home.html. \begin{thebibliography}{99} \bibitem{sk} วิรัช ศรเลิศล้ำวาณิช \newblock ๒๕๔๑. \newblock \emph{เราจะเขียนภาษาไทยให้สื่อความชัดเจนยิ่งขึ้นได้อย่างไร} \newblock นิตยสารศักยภาพ. \newblock สมาคมนักวิชาชีพไทยในญี่ปุ่น \newblock ปีที่ ๕, ฉบับที่ ๒, \newblock หน้า ๒๖--๓๔. \bibitem{html} \newblock http://www.utoronto.ca/webdocs/Official/intro.html. \bibitem{sgml} \newblock http://www.oasis-open.org/. \bibitem{tlatex} \newblock http://www.fedu.uec.ac.jp/ZzzThai/. \bibitem{orchid} \newblock http://www.links.nectec.or.th/orchid/. \bibitem{xml} \newblock http://www.personal.u-net.com/\~{ }sgml/xmlintro.htm. \bibitem{ristat} \newblock http://www.links.nectec.or.th/virach/research.html. \bibitem{knuth:94} Knuth,~D.~E. \newblock 1994. \newblock \emph{The \TeX book} \newblock Addison-Wesley. \bibitem{lamport:94} Lamport,~L. \newblock 1994. \newblock \emph{\LaTeX\ A Document Preparation System} \newblock Addison-Wesley. \bibitem{sgml:90} SGML User's Group. \newblock 1990. \newblock \emph{A Brief History of the Development of SGML} \newblock http://www.sgmlsource.com/history/sgmlhist.htm. \bibitem{virach:98} Sornlertlamvanich,~V., Takahashi,~N. and Isahra,~H. \newblock 1998. \newblock \emph{Thai Part-Of-Speech Tagged Corpus: ORCHID.} \newblock Proceedings of Oriental COCOSDA Workshop. \newblock pp. 131--138. \newblock http://www.links.nectec.or.th/virach/publication.html. \bibitem{virach:97} Sornlertlamvanich,~V., Charoenporn,~T. and Isahra,~H. \newblock 1997. \newblock \emph{ORCHID: Thai Part-Of-Speech Tagged Corpus.} \newblock National Electronics and Computer Technology Center, Thailand. \newblock TR-NECTEC-1997-001, \newblock pp. 5--19. \newblock http://www.links.nectec.or.th/virach/publication.html. \bibitem{virach:96} Sornlertlamvanich,~V. and Hozumi,~T. \newblock 1996. \newblock \emph{The Automatic Extraction of Open Compounds from Text Corpora.} \newblock COLING-96, \newblock pp. 1143--1146. \newblock http://www.links.nectec.or.th/virach/publication.html. \bibitem{enc-ling:88} Takashi,~K., Rokuro,~K. and Eiichi,~C. \newblock 1988. \newblock The Sanseido Encyclopaedia of Linguistics. \end{thebibliography} \end{document}