データの数と信頼性

同義語$\cdot$類義語抽出に関しては翻訳の対応で分類している.しかし,本来存在するはずの訳が変換テーブル[1]中に存在しない場合がある.訳の数が1つ違うだけで,共通か非共通かが変わるため,結果に大きく影響する.つまりデータの数が結果に大きく影響するのである.よって,精度向上にはより多くの対訳文データで変換テーブルを作成し,同様の実験を行う必要があると考える.また,変換テーブル[1]は自動生成であり,精度は95%である.高い精度をもつ翻訳対応ではあるが,本研究では誤った訳の一つで結果が左右される.よって,変換テーブル中で一定の出現頻度があり,翻訳の可能性が高い単語対のみで実験を行うことで翻訳の間違いを防ぐ必要があると考える.