次へ: 法則対の抽出 上へ: 素性分析 戻る: 素性分析目次

法則年号の抽出

法則年号の抽出において教師あり機械学習に基づく手法はA2，A3である．ここで，手法A2とA3に対し素性分析を行い，その結果を表

と表

に示す．素性の説明について，表

に示す．

表: 素性の説明
素性ID	説明
f1	年号前後の文字列
f2	文頭から年号までの文の長さ
f3	年号の順番

表: 手法A2の素性分析の結果
利用した素性	省いた素性	再現率	適合率	F値
f1	f2	0.63	0.77	0.69
f2	f1	0.79	0.71	0.74
全素性	--	0.65	0.78	0.71

表: 手法A3の素性分析の結果
利用した素性	省いた素性	再現率	適合率	F値
f1,f2	f3	0.43	0.75	0.54
f1,f3	f2	0.63	0.77	0.70
f2,f3	f1	0.79	0.71	0.74
全素性	--	0.70	0.81	0.75

手法A2では，「年号前後の文字列(f1)」と「文頭から年号までの文の長さ(f2)」の2つの素性を用いた．表の結果により，素性「年号前後の文字列(f1)」は省いたときのF値(0.74)が全部の素性を利用するときのF値(0.71) より性能が上がることから，この素性は提案手法の性能向上に有効でないことがわかる．一方，素性「文頭から年号までの文の長さ(f2)」の場合は，省いたときのF値(0.69)が全部の素性を利用するときのF値(0.71) より性能が下がることから，この素性は提案手法の性能向上に有効であることがわかる．

手法A3では，「年号前後の文字列(f1)」と「文頭から年号までの文の長さ(f2)」と「年号の順番(f3)」の3つの素性を用いた．表の結果により，素性「年号前後の文字列(f1)」，素性「文頭から年号までの文の長さ(f2)」，素性「年号の順番(f3)」の3つの素性はそれぞれ省いたときのF値(0.74，0.70，0.54)が全部の素性を利用するときのF値(0.75) よりも性能が下がることから，この3つの素性は全て提案手法の性能向上に有効であることがわかる．特に，素性「年号の順番(f3)」を省いたときの性能の差が最も大きく，素性「年号の順番(f3)」は最も効果があるといえる．

次へ: 法則対の抽出 上へ: 素性分析 戻る: 素性分析目次

平成25年10月10日