next up previous contents
Next: 対訳単語辞書 Up: 従来手法 Previous: 従来手法   目次

未知語処理

機械翻訳には,未知語処理の手法が数多く提案されている.本節では,本論文で扱う未知語処理の流れ[1]を図2.1に示す.また,具体的な手順を以下に示す.
手順1
未知語を含む文の生成
任意の機械翻訳機より,未知語を含む文を出力する.未知語を含む出力文の例を表2.1.1に示す.
表: 未知語を含む出力文
入力文 彼は誤植を見付けた.
出力文 He found a 誤植.

手順2
未知語を翻訳
手順1で出力された未知語を対訳単語辞書を用いて翻訳する.訳語が複数存在する場合は,対訳単語確率が最大のものを選択する.なお,表2の $ \log_2(P(E\vert J))$ は,日本語単語が英語単語に訳されるGIZA++[6]の対訳単語確率である.対訳単語辞書の例を表2.1.2に示す.
表: 対訳単語辞書
日本語 英語 $ \log_2(P(E\vert J))$
book -0.297
誤植 misprint -3.816

手順3
未知語処理後の出力文の生成
未知語処理後の出力文を生成する.未知語処理後の出力文の例を表2.1.3に示す.
表: 未知語処理後の出力文
入力文 彼は誤植を見付けた.
出力文 He found a misprint.

図: 未知語処理の流れ図
\fbox{
\includegraphics[keepaspectratio,width=120mm]{img/michigosyori3.eps}
}



2019-03-08