次へ: 法則対の抽出
上へ: 法則年号の抽出
戻る: 西暦変換
目次
ここで,手法A2,A3で利用する素性を表,表に示す.
表:
手法A2で利用した素性
素性ID |
内容 |
f1 |
年号前後の文字列 |
f2 |
文頭から年号までの文の長さ |
表:
手法A3で利用した素性
素性ID |
内容 |
f1 |
年号前後の文字列 |
f2 |
文頭から年号までの文の長さ |
f3 |
年号の順番 |
法則年号の抽出で用いる素性は,「年号前後の文字列」,「文頭から年号までの文の長さ」,「年号の順番」である.
以下で,この3つの素性の設定について説明する.
- 年号前後の文字列
- 年号の前と後ろの文字列を利用する.これは,
年号の前と後ろにある5文字を一文字ずつ削ることで,合わせて10通りの表現を生成する.
例えば,「周期系に対するDFPTはBaroniらによって1987年に提唱された」という文だと,
年号1987年の前の文字列「らによって」と後ろの文字列「に提唱され」を一文字ずつ削ることで,
「らによって」「によって」「よって」「って」「て」「に提唱され」「に提唱さ」「に提唱」「に提」「に」の10通りの表現を生成する.
- 文頭から年号までの文の長さ
- 文章の先頭から年号が初めて出現した場所までの文の長さを測る.
これは,法則の発見年が文頭に出現することが多いという特徴を利用し,
文章の先頭から年号が初めて出現した場所までの距離(文字数)を測る.
距離が1000文字より小さい場合に,その年号が正解である可能性が高いと考え,
この素性に対応する素性ベクトルの次元の値を1にセットする.
距離が1000文字より大きい場合に,その年号が正解である可能性が低いと考え,
この素性に対応する素性ベクトルの次元の値を0にセットする.
- 年号の順番
- 法則ページに出現した年号の順番を利用する.
この素性は手法A3(法則ページの全部の年号を取り出し,機械学習SVMで判断する手法)で用いる.
手法A3は法則ページの全部の年号を機械学習SVMの入力とするため,
それぞれの年号の順番が重要な特徴であると考える.
これを利用し,法則ページの全部の年号を出現した順に,番号を付与する.
例えば,「1871年頃には着想を得ていたとされ、1923年に文章化、完全な定式化は弟子の[[ピグー]]によって公刊された。」という文だと,
年号「1871年」を「1番」,「1923年」を「2番」の出現順に番号を付与する.
平成25年10月10日