次へ:
提案手法
上へ:
冗長な文の修正
戻る:
クロスバリデーション
目次
データ
本章ではウィキペディア
3.1
の日本語ページ,2013年10月30日のデータベースを利用する. 手順を以下に示す.
ウィキペディアおいて, 「可能」を含む文を収集する. 一文内に複数回「可能」が出現する文は本研究では用いない.
収集した文の集合から文中の「可能」が別の冗長でない表現に言い換えができる文を100文取り出す.
取り出した100文を人手で修正し,取り出した100文(冗長な文)とその修正文を対としたものを作成し 実験に用いるデータとする. 上記の修正は,「可能」が存在していたことにより冗長となっていた 個所のみに対して行う. 例えば,「十分理解可能である。」の文からは次のような対を獲得する.
文対例1
冗長な文
十分理解可能である。
修正文
十分理解できる。
「という」「すること」についても同様にして, 上述のような文対をそれぞれ100文対ずつ獲得し,合計300文対を獲得する.
図
はデータ作成の一連の流れである.
図:
データ作成
平成26年3月16日