next up previous contents
次へ: 提案手法 上へ: 冗長な文の修正 戻る: クロスバリデーション   目次


データ

本章ではウィキペディア3.1の日本語ページ,2013年10月30日のデータベースを利用する. 手順を以下に示す.
  1. ウィキペディアおいて, 「可能」を含む文を収集する. 一文内に複数回「可能」が出現する文は本研究では用いない.

  2. 収集した文の集合から文中の「可能」が別の冗長でない表現に言い換えができる文を100文取り出す.
  3. 取り出した100文を人手で修正し,取り出した100文(冗長な文)とその修正文を対としたものを作成し 実験に用いるデータとする. 上記の修正は,「可能」が存在していたことにより冗長となっていた 個所のみに対して行う. 例えば,「十分理解可能である。」の文からは次のような対を獲得する.

    文対例1
    冗長な文 十分理解可能である。
       
    修正文 十分理解できる。

  4. 「という」「すること」についても同様にして, 上述のような文対をそれぞれ100文対ずつ獲得し,合計300文対を獲得する.

[*]はデータ作成の一連の流れである.

図: データ作成



平成26年3月16日