next up previous contents
次へ: TF-IDFによるノードの選定 上へ: 先行手法 戻る: ノード候補の抽出   目次

形態素解析

日本語の文は英語の文と違い,単語の明確な区切りがない. そのため,ノード候補となる単語を抽出するために,形態素解析と呼ばれる処理を行う必要がある. 形態素解析とは,テキストを形態素と呼ばれる単位に分割することである. 形態素というのは,厳密には単語と違った分割の単位であるが,おおよそ単語と同じようなものになる. 形態素は品詞の情報を持つ. 形態素解析結果の例を図3.2に示す.

入力:「今年はロンドンで開催されるが2020年には東京でオリンピックがある」

図: 形態素解析の出力例
\fbox{
\includegraphics{soturon_keitaiso.eps}
}

このようにして形態素解析によりノード候補になる単語を取り出す. 本研究では形態素解析にChaSenを用いた.


root 平成26年3月29日