next up previous contents
Next: 複合語の未知語の問題 Up: 誤った未知語翻訳の解析 Previous: 誤った未知語翻訳の解析   目次

頻度1単語の問題

未知語の翻訳精度低下につながる主な原因として頻度1単語の問題が挙げられる.頻度1単語は,翻訳確率の統計的信頼性が低いため精度が低い傾向にある.表6.2において頻度1単語は 109単語中75単語存在していた.この75単語における翻訳精度を表7.4に示す.また,表7.4における正しい翻訳例を表7.5に,誤った翻訳例を表7.6に示す.


表 7.4: 頻度1単語の翻訳精度(75単語中)
\scalebox{1.0}{
\begin{tabular}{\vert c\vert c\vert}
\hline
正しい翻訳 & 誤った翻訳 \\
\hline
33 単語 & 42 単語\\
\hline
\end{tabular} }



表 7.5: 正しい翻訳の一例(33単語中)
翻訳前 翻訳後
sheath
還流 reflux
盆栽 bonsai
友誼 friendship
大塚 Otsuka
表 7.6: 誤った翻訳の一例(42単語中)
翻訳前 翻訳後
旧来 clinging
印加 voltage
空爆 Milosevic
膨らむ heaved
リウマチ Since


また,対訳学習文中に出現する頻度が2回以上の単語(頻度2以上の単語 )における翻訳精度を表7.7に示す.また,表7.7における正しい翻訳例を表7.8に,誤った翻訳例を表7.9に示す.

表 7.7: 頻度2以上の単語の翻訳精度(34単語中)
\scalebox{1.0}{
\begin{tabular}{\vert c\vert c\vert}
\hline
正しい翻訳 & 誤った翻訳 \\
\hline
21 単語 & 13 単語\\
\hline
\end{tabular} }



表 7.8: 正しい翻訳の一例(21単語中)
翻訳前 翻訳後
交戦 war
マス trout
運輸 transport
スモッグ smog
マドリード Madrid
表 7.9: 誤った翻訳の一例(13単語中)
翻訳前 翻訳後
冷夏 summer
音感 pitch
適合 compatibility
まじっ hairs
一両日 or


7.4と表7.7より,頻度1単語の翻訳精度は約40%であり,頻度2以上の単語の翻訳精度は約60%だった.したがって,頻度1単語の翻訳精度は頻度2以上の単語の翻訳精度よりも低いことが分かる.ここで,誤った未知語翻訳となった109単語中55単語の内訳を表7.10に示す.


表 7.10: 誤った未知語翻訳の内訳(55単語中)
\scalebox{1.0}{
\begin{tabular}{\vert c\vert c\vert}
\hline
頻度1単語 & ...
...語 & 13 単語\\
%46/113 単語 & 67/113 単語\\
\hline
\end{tabular} }


7.10より,誤った未知語翻訳における約80%は頻度1単語であることが分かる.つまり,精度の低い頻度1単語の未知語が多く存在していることが,表6.2の翻訳精度低下につながっていると考えられる.


next up previous contents
Next: 複合語の未知語の問題 Up: 誤った未知語翻訳の解析 Previous: 誤った未知語翻訳の解析   目次
s122019 2018-02-15