単語分割の手法

MeCabだけを使う場合,文書を分割し過ぎることがよくある.例えば,専門用語の自然言語処理が含まれる文をMeCabで分割すると,「自然 言語 処理」で分割する.このような問題を解決するため,連続している名詞単語を一つの名詞として扱い,かつtermextractを用いて,専門用語を識別する.専門用語の多くは単語を組み合わせて、複雑な概念を表すことが多くなる。特に「茶筅」の場合は単語を品詞単位で細かく分割するため、そのまま使うには難しい.その問題点を解決したソフトはtermextractである.MeCabとtermextractを用いて,処理する例を以下で示す.
\begin{itembox}[l]{入力の例}
自然言語処理は、人間が日常的に...
...語をコンピュータに処理させる一連の技術である
\end{itembox}

\begin{itembox}[l]{出力の例}
自然言語処理 人間 日常的 自然言語 コンピュータ 処理 一連 技術
\end{itembox}