next up previous contents
次へ: 選択記号の表現要素を新たに発見する方法 上へ: 考察 戻る: 選択記号の表現要素数に関する調査   目次

人手で言い換えた入力文を用いた調査

本研究で使用した入力文, すなわち単語レベル文型パターンを作成するために使 用した標本文は, 辞書や語学教育用の教科書, 機械翻訳機能評価用の試験文など で構成されている. これらは, 日本語の基本的な表現で収録されているため表現 のゆらぎが少ないと考えられる.そこで, 入力文に対し人手で言い換えを行い, その文における受理パターン率を調査した.

調査対象として, 入力文からランダムで114文を抽出し, 人手で641文に言い換え た. 言い換えた641文のうち, 形態素解析で誤った40文を除いた601文を調査対象 とした. 各辞書において受理された文数を表5に示す.


表 6: 言い換えにより受理された文数
辞書 受理された文数 受理されなかった文数
(1)選択記号無し 401 200
(2)オリジナル 432 169
(3)最長均一化 425 176
(4)新たに作成 425 176

この結果を見ると, 選択記号が無い辞書(1)に比べ現在の辞書(2)ではわずかに受 理パターン数が増加するが, 辞書(2)と既存の選択記号を増加させた単語レベル 文型パターン辞書(3), (4)とを比較しても受理された文数は変わらない. なお, 単語レベル文型パターン辞書 (2)に比べ単語レベル文型パターン辞書(3), (4)の受理された文数が減っている 理由は, 選択記号を増加させたことによる文型パターンパーサjppのバグだと考 えられる.

次に, 元々の日本語原文と人手で言い換えた日本文における適合率を比較した. 使用した辞書は選択記号を最も多く付与した単語レベル文型パターン辞書(4)である. 結果を表6に示す.


表 7: 人手で言い換えた日本文に対する適合率
入力文 入力文数 自己以外に受理 適合率
日本語原文 114 57 50.00
言い換えた日本文 601 305 50.75

この結果, 入力文の種類が変わっても適合率にそれほどの差は無いことが分かっ た.

次に, 単語レベル文型パターン辞書(4)において受理されなかった176文と見ると, 例8や例9のように, わずかな表現のゆらぎしかないが 受理不可能になる文が63文存在した. この63文の受理不可能になった箇所は選択 記号に置き換えることで受理できると考えられる. また, 残りの113文に関しては, 例10や 例11のように, 「サ変名詞+する」と動詞の変化や, 名詞と名詞の変化などがほ とんどであった. この結果, 選択記号の箇所が不足していると考えられる. また, これらの箇所が全て改善されれば, 適合率はおよそ 80%( $(305+176)/601=0.8003$)まで向上が期待される.

<例8>
 

・そうするのはどうしてもいやだと言う。(受理)

日本語パターン: $RSNY3<RSNTK4N1は>RSNTCFK5そうRSNF6$


$(V2$^ $rentai|ND2をする)!のはRSNCF7どうしてもRSNF8$いやだ$SENAQJ10$


$RSNCF9言う。$

・そうするのはどうしてもだと言う。(受理不可)

<例9>
 

・彼はあまりなれなれしいから人に嫌われる。(受理)

日本語パターン:$RSNY4$1$^ ${RSNTK5N1は}\char93 2[RSNCF6あまり]$1RSNF7なれなれしい$から $$1RSNTK8人にRSNCF9(V3.reru|ND3をされる)。$

・彼はあまりなれなれしいので人に嫌われる。(受理不可)

<例10>
 

・目的地まで遠いから、時々休みながら行く。(受理)

日本語パターン: $RSNYTK3N1SENAXA9RSNCF4遠いから、<RSNTK5N2は>\char93 3[RSNTCFK6時々]RSNTK7$休みながら $RSNF8SENBYQ10。$

・目的地まで遠いから、時々休憩しながら行く。(受理不可)

<例11>
 

・頭痛は明くる日になっても直らなかった。(受理)

日本語パターン: $RSNY4<RSNTK5N1は>RSNTCFK6N2はRSNCF7$明くる


$RSNTK8$$TIME3$ $にRSNCF9なっSENAPX11RSNF10直らなかった。$

・頭痛は翌日になっても直らなかった。(受理不可)


next up previous contents
次へ: 選択記号の表現要素を新たに発見する方法 上へ: 考察 戻る: 選択記号の表現要素数に関する調査   目次
平成18年3月24日