次へ: 適合頻度0の文型パターンの削除(手順1)
上へ: 文型パターン辞書の削減
戻る: 高頻度文型パターン
目次
本研究で提案する文型パターンの削減方法の基本的な考え方を次に示す.
- 文型パターン辞書の精度を維持
- 適合頻度の低い文型パターンは影響が小さいため削除
- 適合頻度の高い文型パターンは悪影響があるため削除
- カバー範囲が重複する文型パターンを削除するために,包含関係を利用
- 文型パターン辞書の作成に用いた用例集とは別の用例集を利用することで,表現の多様性を確保
以上の考え方に基づいて,文型パターンの削減を行う.
以下に手順の概要を示す.
- クロスバリデーションテストでの適合頻度が0の文型パターンをオリジナルの文型パターン辞書(D0)から削除し,辞書D1を作成
- 上記で削除した文型パターンのうち,別の評価用試験文集に適合するものを辞書D1に追加し,辞書D2を作成
- 辞書D2において,包含関係を持つ文型パターンに着目して,辞書D3を作成
- 辞書D3において,過剰に汎化された文型パターン削除して,縮退版文型パターン辞書D4を作成
各手順の具体的な内容を以下に示す.
Subsections
平成19年3月1日