次へ: 手がかり語検出の動作例
上へ: 手がかり語検出
戻る: 手がかり語検出
目次
以下に,手がかり語検出のアルゴリズムを示す.
- 手順1
- 手がかり語検出を行う対象のブログ記事から,1文取得する.
- 手順2
- 取得した1文に対して,形態素解析を行い,名詞を抽出する.
- 手順3
- 抽出した名詞が手がかり語辞書に登録されていれば,文章中のその名詞の箇所に,都道府県名と共にタグを挿入する.
次に,手がかり語検出の際に指定できる動作条件を説明する.
手順2において名詞を抽出する際に,抽出対象に含める品詞情報を以下の4種類に指定することができる.
- 「名詞」すべて
- 「名詞,一般」および「名詞,固有名詞」
- 「名詞,一般」および「名詞,固有名詞」から人名を排除したもの
- 「名詞,固有名詞,地域」および「名詞,固有名詞,一般」
これは,手がかり語辞書には地名であるが人名でもある単語や,地名であるが一般名詞でもある単語が存在するため,
抽出対象を変化させることによる手がかり語検出の性能の違いをみるためである.
最後に,検出結果の出力条件を説明する.
手順3において挿入するタグの形式を以下に示す.
<pl name="都道府県名1,都道府県名2,…">手がかり語</pl>
上記に示すように,手がかり語の前後にタグが挿入される形式になっている.
タグの中のname欄に,手がかり語辞書に登録されている都道府県名が記述される.
このname欄には,単一の都道府県名が記述される場合,
複数の都道府県名が記述される場合,
および都道府県名不明の"*"が記述される場合がある.
平成23年3月3日