調査対象として, 入力文からランダムで114文を抽出し, 人手で641文に言い換え た. 言い換えた641文のうち, 形態素解析で誤った40文を除いた601文を調査対象 とした. 各パターン辞書において受理された文数を表4に示す.
パターン辞書 | 受理された文数 | 受理されなかった文数 |
(1)選択記号無し | 401 | 200 |
(2)オリジナル | 432 | 169 |
(3)最長均一化 | 425 | 176 |
(4)新たに作成 | 425 | 176 |
この結果を見ると, 選択記号が無い辞書(1)に比べ現在の辞書(2)ではわずかに受 理パターン数が増加するが, 既存の選択記号を増加させた辞書(3), (4)と比較し ても変わらないことが分かった. なお, パターン辞書(2)に比べパターン辞 書(3), (4)の受理された文数が減っている理由は, 選択記号を増加させたことによる 文型パターンパーサjppのバグだと考えられる.
次に, 元々の日本語原文と人手で言い換えた日本文における適合率を比較した. 使用したパターン辞書は選択記号を最も多く付与した(4)のパターン辞書である. 結果を表5に示す.
この結果, 入力文の種類が変わっても適合率にそれほどの差は無いことが分かっ た.
次に, パターン辞書(4)において受理されなかった176文と見ると, 例8や例9のよ うに, わずかな表現のゆらぎしかないが 受理不可能になる文が63文存在した. この63文の受理不可能になった箇所は選択 記号に置き換えることで受理できると考えられる. また, 残りの113文に関しては, 例10や 例11のように, 「サ変名詞+する」と動詞の変化や, 名詞と名詞の変化などがほ とんどであった. この結果, 人手による入力を考慮すると, 選択記号となる箇所が不足していると 考えられる. また, これらの箇所が全て改善されれば, 適合率はおよそ 80%( )まで向上が期待される.
そうするのはどうしても嫌だと言う。(受理不可)
彼はあまりなれなれしいので人に嫌われる。(受理不可)
目的地まで遠いから、時々休憩しながら行く。(受理不可)
頭痛は翌日になっても直らなかった。(受理不可)