next up previous
次へ: NLP_sentaku2 上へ: NLP_sentaku2 戻る: NLP_sentaku2

startsection subsection2@0.20.05人手で言い換えた入力文を用いた調査 本研究で使用した入力文, すなわち文型パターンを作成するために使用した標本 文は, 辞書や語学教育用の教科書, 機械翻訳機能評価様の試験文などで構成され ている. これらは, 日本語の基本的な表現で収録されているため表現のゆらぎが 少ないと考えられる.そこで, 入力文に対し人手で言い換えを行い, その文にお ける受理パターン率を調査した.

調査対象として, 入力文からランダムで114文を抽出し, 人手で641文に言い換え た. 言い換えた641文のうち, 形態素解析で誤った40文を除いた601文を調査対象 とした. 各パターン辞書において受理された文数を表4に示す.




表 4: 言い換えにより受理された文数
パターン辞書 受理された文数 受理されなかった文数
(1)選択記号無し 401 200
(2)オリジナル 432 169
(3)最長均一化 425 176
(4)新たに作成 425 176

この結果を見ると, 選択記号が無い辞書(1)に比べ現在の辞書(2)ではわずかに受 理パターン数が増加するが, 既存の選択記号を増加させた辞書(3), (4)と比較し ても変わらないことが分かった. なお, パターン辞書(2)に比べパターン辞 書(3), (4)の受理された文数が減っている理由は, 選択記号を増加させたことによる 文型パターンパーサjppのバグだと考えられる.

次に, 元々の日本語原文と人手で言い換えた日本文における適合率を比較した. 使用したパターン辞書は選択記号を最も多く付与した(4)のパターン辞書である. 結果を表5に示す.




表 5: 人手で言い換えた日本文に対する適合率
入力文 入力文数 自己以外に受理 適合率
日本語原文 114 57 50.00
言い換えた日本文 601 305 50.75

この結果, 入力文の種類が変わっても適合率にそれほどの差は無いことが分かっ た.

次に, パターン辞書(4)において受理されなかった176文と見ると, 例8や例9のよ うに, わずかな表現のゆらぎしかないが 受理不可能になる文が63文存在した. この63文の受理不可能になった箇所は選択 記号に置き換えることで受理できると考えられる. また, 残りの113文に関しては, 例10や 例11のように, 「サ変名詞+する」と動詞の変化や, 名詞と名詞の変化などがほ とんどであった. この結果, 人手による入力を考慮すると, 選択記号となる箇所が不足していると 考えられる. また, これらの箇所が全て改善されれば, 適合率はおよそ 80%( $(305+176)/601=0.8003$)まで向上が期待される.

<例8>
そうするのはどうしてもいやだと言う。(受理)

そうするのはどうしてもだと言う。(受理不可)

<例9>
彼はあまりなれなれしいから人に嫌われる。(受理)

彼はあまりなれなれしいので人に嫌われる。(受理不可)

<例10>
目的地まで遠いから、時々休みながら行く。(受理)

目的地まで遠いから、時々休憩しながら行く。(受理不可)

<例11>
頭痛は明くる日になっても直らなかった。(受理)

頭痛は翌日になっても直らなかった。(受理不可)


next up previous
次へ: NLP_sentaku2 上へ: NLP_sentaku2 戻る: NLP_sentaku2
root 平成18年3月24日