Next: 変数番号の問題点
Up: 変数化の問題点
Previous: 変数化の問題点
Contents
本研究では,単語の変数化を自動的に行った.変数化に失敗した原因を検証するた
め,ランダムに抽出した100件の単文において、変数化できなかった単語を調査し
た.以下に名詞について変数化に失敗した原因の分類を示す.
- A…日本語単語は辞書にあるが,対応する英語単語が英語文の単語と異なっ
ている場合.
- (Aの例)
- 日本文…株価が2割5分下がった。
- 英語文…Stocks went down 25 percent.
辞書には,株価⇔stock price と載っている.
- B…対訳の英語単語が複数単語である場合.
- (Bの例)
- 日本文…吉田選手が一塁を守っている。
- 英語文…Yoshida plays first base.
辞書には,一塁⇔first base と載っているが,本研究では複数単語の変数
化に対応できていない.
- C…日本語側では名詞扱いだが,英語文では動詞など異なる品詞で表現さ
れている場合.
- (Cの例)
- 日本文…上半身裸であった。
- 英語文…She was naked to the waist.
「裸」が日本語側では名詞と判断されているが英語側では''be naked''と
表現されている.
- D…日本語単語が全く辞書に載っていない場合.
- (Dの例)
- 日本文…西洋流の教育によって村人たちのしきたりは衰えている。
日本文の名詞「しきたり」は,本研究で用いた日英対訳辞書に載っていな
い.
- E…形態素解析ミス
- (Eの例)
日本文の「非常」が形態素解析によって名詞と判断されていた.
単文100件において形態素解析によって名詞と判断された単語は,
222個であった.変数化できた単語は,111個であった.以下の表14に変
数化できなかった単語111個を上記のA〜Eに分類した結果を示す.
Table 14:
変数化できなかった名詞単語の分類
分類 |
単語の個数[個] |
割合[%] |
A |
35 |
31.5 |
B |
9 |
8.1 |
C |
53 |
47.7 |
D |
7 |
6.3 |
E |
7 |
6.3 |
上記の分類のAとDは辞書を強化することで、Bは変数化プログラ
ムを改良することで変数化できる.しかし,Cの問題を自動的に解決するのは難
しく,人手による判断が必要である.
また,その他の品詞につ
いて検証した所,固有名詞,副詞,形容詞は100件中,単語の出現回数が20回未
満と少なかったため,変数化できない原因の傾向がつかめなかった.連体詞につ
いては,辞書を強化すること,代名詞については,代名詞の所有格も変数化する
ことでほぼすべての単語が変数化できる.動詞に関しては,複合動詞の変数化と
辞書の強化が必要である.
従って,辞書の強化と変数化プログ
ラム改良で変数化できる単語の割合が全体的に約50%増加すると予想される.
Jin'ichi Murakami
2006-03-11