次へ: 用言意味属性を利用したパターン辞書の拡張
上へ: パターン辞書の構築結果
戻る: パターン辞書の構築結果
目次
3つのブログサイトから,約22ヶ月分のブログデータを取得し,パターン対の作成を行った.入力は,取得したブログ文約967,000,000文であった.作成したパターン対は59ペアとなった.
図3.1における各手順での入力の推移を以下に示す.
- 手順1:
- 用意したブログ文約967,000,000文から,連続する単文の対約300,000件を,自動で抽出する.
- 手順2:
- 抽出した単文対から,場所と存在物を含む単文対約900件を,自動で選出する.
- 手順3:
- 選出した単文対に対して,存在物,場所および重要表現の注釈を人手で付与し,不適切な単文対を取り除く.こうして,タグ付きの単文対57件を得る.
- 手順4:
- タグ付き単文対から,場所・存在物の分析用のパターン対59ペアを自動で作成する.
手順3において,作成したタグ付き単文対の例を図3.3に示す.
図:
タグ付き単文対の例
|
図3.3より作成したパターン対を図3.4に示す.
図:
パターン対の例
|
平成25年3月21日