next up previous contents
次へ: 法則対の抽出 上へ: 法則年号の抽出 戻る: 西暦変換   目次

素性の設定

ここで,手法A2,A3で利用する素性を表[*],表[*]に示す.
表: 手法A2で利用した素性
素性ID 内容
f1 年号前後の文字列
f2 文頭から年号までの文の長さ


表: 手法A3で利用した素性
素性ID 内容
f1 年号前後の文字列
f2 文頭から年号までの文の長さ
f3 年号の順番

法則年号の抽出で用いる素性は,「年号前後の文字列」,「文頭から年号までの文の長さ」,「年号の順番」である. 以下で,この3つの素性の設定について説明する.

年号前後の文字列
年号の前と後ろの文字列を利用する.これは, 年号の前と後ろにある5文字を一文字ずつ削ることで,合わせて10通りの表現を生成する. 例えば,「周期系に対するDFPTはBaroniらによって1987年に提唱された」という文だと, 年号1987年の前の文字列「らによって」と後ろの文字列「に提唱され」を一文字ずつ削ることで, 「らによって」「によって」「よって」「って」「て」「に提唱され」「に提唱さ」「に提唱」「に提」「に」の10通りの表現を生成する.

文頭から年号までの文の長さ
文章の先頭から年号が初めて出現した場所までの文の長さを測る. これは,法則の発見年が文頭に出現することが多いという特徴を利用し, 文章の先頭から年号が初めて出現した場所までの距離(文字数)を測る. 距離が1000文字より小さい場合に,その年号が正解である可能性が高いと考え, この素性に対応する素性ベクトルの次元の値を1にセットする. 距離が1000文字より大きい場合に,その年号が正解である可能性が低いと考え, この素性に対応する素性ベクトルの次元の値を0にセットする.

年号の順番
法則ページに出現した年号の順番を利用する. この素性は手法A3(法則ページの全部の年号を取り出し,機械学習SVMで判断する手法)で用いる. 手法A3は法則ページの全部の年号を機械学習SVMの入力とするため, それぞれの年号の順番が重要な特徴であると考える. これを利用し,法則ページの全部の年号を出現した順に,番号を付与する. 例えば,「1871年頃には着想を得ていたとされ、1923年に文章化、完全な定式化は弟子の[[ピグー]]によって公刊された。」という文だと, 年号「1871年」を「1番」,「1923年」を「2番」の出現順に番号を付与する.



平成25年10月10日