品詞分解の問題

5.3章で得た出力例を考察する.

例と同様に,Cが「し」となる変換テーブルは従来手法で枝刈りをした場合6482個存在する. 一方提案手法で枝刈りをすると44個となる. 中身として従来手法では「し」の訳として「with」や「to」などが多くあるのに対し,提 案手法では「did」や「has」,「made」などが列挙される.

日本語において「し」は動詞に付属して「〜 し た」という3単語の形で用いられることが多い. しかし,英語では「〜 し た」を1単語の動詞の過去形で訳される場合が多い. また,文において「し」の対訳単語はない場合も多い. よって「し」の様な単語において間違った変換テーブルを作成してしまう場合がある. 提案手法ではCDの類似度を用いて枝刈りを行うので多くの間違った変換テーブルを削除できると考える.