形態素解析とは,テキストを形態素と呼ばれる単位に分割することである. 形態素は,厳密には単語とは違った分割の単位だが,おおよそ単語と同じようなものになり,品詞の情報を持つものである. 形態素解析結果の例を図に示す.
入力:「宇宙飛行士の若田光一さんが国際宇宙ステーションの第39代船長に就任した」
図のように,形態素解析を行うことで,品詞の情報を持った単語に分割する. 本研究では,記事の形態素解析にChaSenを用いる. また,形態素解析を用いて名詞を取り出す際に,一文字,ひらがなのみ,数字のみの単語を除外する.