次へ: TF-IDFによるノードの選定
上へ: 先行手法
戻る: ノード候補の抽出
目次
日本語の文は英語の文と違い,単語の明確な区切りがない.
そのため,ノード候補となる単語を抽出するために,形態素解析と呼ばれる処理を行う必要がある.
形態素解析とは,テキストを形態素と呼ばれる単位に分割することである.
形態素というのは,厳密には単語と違った分割の単位であるが,おおよそ単語と同じようなものになる.
形態素は品詞の情報を持つ.
形態素解析結果の例を図3.2に示す.
入力:「今年はロンドンで開催されるが2020年には東京でオリンピックがある」
このようにして形態素解析によりノード候補になる単語を取り出す.
本研究では形態素解析にChaSenを用いた.
root
平成26年3月29日