next up previous contents
次へ: おわりに 上へ: 考察 戻る: 人手で言い換えた入力文を用いた調査   目次

選択記号の表現要素を新たに発見する方法

選択記号内の表現要素を発見する方法として, 現在の単語レベル文型パターン中 の選択記号が付与されている箇所を2形態素までなら文型パターンパーサで受 理できるようにし, 置き換えた表現要素が選択記号の表現要素として使用可能か どうかを調査した.

<例12>
 

日本語原文:そこで笑ってはだめだ。

日本語パターン:$/y\char93 1[$そこで$]/fV2$(て|で)は$/cf$だめだ。

日本語パターン:$/y\char93 1[$そこで$]/fV2*$$/cf$だめだ。

具体的な例を示す. 例12において, 日本語パターン中の選択記号(て|で)のかわりにどのような表現要素 でも受理可能である$*$の記号をつけ, 入力文12万文と照合を行った.

$*$で受理された表現要素を受理された回数 でソートし, 上位100件ほどを調べたところ, 「ていて」という表現要素を発見した. この表現要素は, 例13の文を入力しても受理するよう(て|で|ていて)のように新 たに選択記号の表現要素として追加しても構わないと考えられる.

<例13>
 

そこで笑っていてはだめだ。

しかし, 選択記号(て|で)の箇所のかわりに受理された表現要素は本来103,964件 あり, その中から人手で追加可能な表現要素を捜すのは困難であった. 以下に、(て|で)のかわりに受理された表現要素の一部を示す。


表 8: (て|で)のかわりに受理された表現要素の(一部)
区別 表現要素 使用回数 使用割合
+ 6590959 48.446188%
+ 456923 3.358567%
- 328845 2.417142%
- 316633 2.327379%
- ようだ 199257 1.464619%
- 179919 1.322477%
- ために 177066 1.301506%
- 143150 1.052210%
- 129763 0.953810%
- て、 127985 0.940741%
- て其の 111007 0.815946%
- ながら 94424 0.694054%
- れるて 93699 0.688725%

ここで, 元々存在していた表現要素と新たに受理された表現要素を区別するため, 元々の表現要素には''+''を, 新たに受理された表現要素には''-''を付けてい る.


next up previous contents
次へ: おわりに 上へ: 考察 戻る: 人手で言い換えた入力文を用いた調査   目次
平成18年3月24日