調査対象として, 入力文からランダムで114文を抽出し, 人手で641文に言い換え た. 言い換えた641文のうち, 形態素解析で誤った40文を除いた601文を調査対象 とした. 各辞書において受理された文数を表5に示す.
辞書 | 受理された文数 | 受理されなかった文数 |
(1)選択記号無し | 401 | 200 |
(2)オリジナル | 432 | 169 |
(3)最長均一化 | 425 | 176 |
(4)新たに作成 | 425 | 176 |
この結果を見ると, 選択記号が無い辞書(1)に比べ現在の辞書(2)ではわずかに受 理パターン数が増加するが, 辞書(2)と既存の選択記号を増加させた単語レベル 文型パターン辞書(3), (4)とを比較しても受理された文数は変わらない. なお, 単語レベル文型パターン辞書 (2)に比べ単語レベル文型パターン辞書(3), (4)の受理された文数が減っている 理由は, 選択記号を増加させたことによる文型パターンパーサjppのバグだと考 えられる.
次に, 元々の日本語原文と人手で言い換えた日本文における適合率を比較した. 使用した辞書は選択記号を最も多く付与した単語レベル文型パターン辞書(4)である. 結果を表6に示す.
この結果, 入力文の種類が変わっても適合率にそれほどの差は無いことが分かっ た.
次に, 単語レベル文型パターン辞書(4)において受理されなかった176文と見ると, 例8や例9のように, わずかな表現のゆらぎしかないが 受理不可能になる文が63文存在した. この63文の受理不可能になった箇所は選択 記号に置き換えることで受理できると考えられる. また, 残りの113文に関しては, 例10や 例11のように, 「サ変名詞+する」と動詞の変化や, 名詞と名詞の変化などがほ とんどであった. この結果, 選択記号の箇所が不足していると考えられる. また, これらの箇所が全て改善されれば, 適合率はおよそ 80%( )まで向上が期待される.
・そうするのはどうしてもいやだと言う。(受理)
日本語パターン:
^
いやだ
・そうするのはどうしても嫌だと言う。(受理不可)
・彼はあまりなれなれしいから人に嫌われる。(受理)
日本語パターン:^
から
・彼はあまりなれなれしいので人に嫌われる。(受理不可)
・目的地まで遠いから、時々休みながら行く。(受理)
日本語パターン: 休みながら
・目的地まで遠いから、時々休憩しながら行く。(受理不可)
・頭痛は明くる日になっても直らなかった。(受理)
日本語パターン: 明くる
・頭痛は翌日になっても直らなかった。(受理不可)