記事の形態素解析

抽出された記事に対して,形態素解析を用いて,名詞を取り出す.

形態素解析とは,テキストを形態素と呼ばれる単位に分割することである. 形態素は,厳密には単語とは違った分割の単位だが,おおよそ単語と同じようなものになり,品詞の情報を持つものである. 形態素解析結果の例を図[*]に示す.

入力:「宇宙飛行士の若田光一さんが国際宇宙ステーションの第39代船長に就任した」

Figure: 形態素解析の出力例
\fbox{
\includegraphics[width=110mm]{keitaiso.eps}
}

[*]のように,形態素解析を行うことで,品詞の情報を持った単語に分割する. 本研究では,記事の形態素解析にChaSenを用いる. また,形態素解析を用いて名詞を取り出す際に,一文字,ひらがなのみ,数字のみの単語を除外する.