next up previous contents
Next: ノード候補の抽出 Up: 先行手法 Previous: キーワードを含む記事の抽出   目次


記事の形態素解析

3.2節で作成された記事群に対して形態素解析を用い,名詞を取り出す.

形態素解析とは,テキストを形態素と呼ばれる言語で意味を持つ最小単位に分割することである. 形態素は,厳密には単語とは違った分割の単位だが,おおよそ単語と同じようなものになり,品詞の情報を持つものである. 形態素解析結果の例を図3.3に示す.


入力:「宇宙飛行士の若田光一さんが国際宇宙ステーションの第39代船長に就任した」

図 3.3: 形態素解析の出力例
3#3

3.3のように形態素解析を行うことで,品詞の情報を持った単語に分割する.本研究では,形態素解析にMecabを用いる.また,形態素解析を用いて名詞を取り出す際に,一文字,数字のみの単語を除外する.また,4.2節に後述する不要単語リストに含まれる単語も除外する.



2017-04-20