次へ: この文書について...
documentclass[a4j,12pt]jreport
usepackage[dvips]graphicx
usepackagemycaption
usepackageamssymb
usepackagehere
usepackageascmac
usepackageepsf
usepackagearray
usepackagemultirow
usepackagefancybox
usepackageccaption
par
newcolumntypeI!vrule width 3arrayrulewidth
newlengthsavedwidth
newedcommandHlinenoalignglobalarrayrulewidth 3arrayrulewidthhline noalignglobalarrayrulewidthorigarrayrulewidth
par
renewedcommandbibname参考文献
makeatletter
renewedcommandparagraphstartsectionparagraph4z@1.5Cvs plus.5Cdp minus.2Cdp.5Cvs plus.3Cdpreset@fontnormalsizebfseries
makeatother
par
setcountersecnumdepth6
setlengthtextwidth39zw
setlengthtextheight38baselineskip
addtolengthtextheighttopskip
par
footskip=10mm
par
begindocument
par
setlengthbaselineskip20pt
par
setcounterpage0
pagenumberingroman
par
begincenter
section*LARGE 概要
endcenter
par
近年,機械翻訳の分野で統計翻訳が注目されている.
統計翻訳においては,対訳文などの学習データの量が多ければ多いほど翻訳精度が高くなる.
しかし,対訳文の収集のコストは大きい.
par
この問題に対し,対訳文と対訳句を学習データに追加する手法の研究が行われている.
そして,この研究において,自動評価値が向上したとの報告がある.
この研究は,セルビア語英語間,スペイン語英語間citepre1そしてブルトン語フランス語間citepre2における統計翻訳において行われている.
また日野らの研究においても,日本語英語間の統計翻訳における対訳文と対訳句の学習データへの追加の効果が報告されているcitehino .
par
しかし,これらの先行研究の実験環境においては,対訳文とは別の新たな対訳句を学習データに追加したものを学習に用いている.
この場合,翻訳精度向上の理由として考えられるのは,新たな対訳句の学習により正しい対訳句の対応が強調されたことと,
新たな対訳句の学習により単に対訳データの語彙量が増加したことの,大きく2つの要因が考えられる.
そのため,実際に正しい対訳句の対応が強調されたことが,どの程度,翻訳精度の向上に効果があったのかはわからない.
また,新たな対訳句の学習には,対訳句の収集にコストがかかるため,学習に用いるデータの収集の面でも問題が残る.
par
そこで,本研究では,対訳データの語彙量の増加が生じない実験環境においても,正しい対訳句の対応が強調されていれば翻訳精度が向上すると予想する.
そして,対訳データの語彙量の増加が生じない実験環境において,対訳文と対訳句を学習データに追加したものを用いた統計翻訳の有効性の調査を行う.
具体的に,対訳データの語彙量の増加が生じない実験環境とは,学習に用いる対訳文から対訳句を抽出することにより実現する.
この実験環境において,正しい対訳句の対応が強調されたことが,どの程度,翻訳精度の向上に効果があったのか調査する.
また,この実験環境で翻訳精度が向上すれば,あらかじめ用意する対訳データとしては対訳文のみを用意すればよいため,対訳データ収集のコストを増やすことなく,翻訳精度を向上させることができる.
さらに,対訳句の抽出方法として,手動抽出と自動抽出の2通りの抽出方法を試し,対訳句の抽出精度やその対訳句を用いた場合の統計翻訳の翻訳精度の調査を行う.
日英対訳文は重文複文citecorpusを用いる.
日英対訳句として日英対訳文から抽出した対訳句を用いる.
par
その結果,自動評価と人手評価のどちらにおいても提案手法の翻訳精度は向上した.
よって,対訳データの語彙量の増加が生じない実験環境においても,正しい対訳句の対応が強調されていれば翻訳精度が向上することがわかり.
対訳文と対訳句を学習データへ追加した対訳データを用いた統計翻訳の有効性が示された.
par
setcountertocdepth3
tableofcontents
newpage
listoffigures
newpage
listoftables
newpage
pagenumberingarabic
par
chapterはじめに
近年,機械翻訳の分野で統計翻訳が注目されている.
統計翻訳においては,対訳文などの学習データの量が多ければ多いほど翻訳精度が高くなる.
しかし,対訳文の収集のコストは大きい.
par
この問題に対し,対訳文と対訳句を学習データに追加する手法の研究が行われている.
そして,この研究において,自動評価値が向上したとの報告がある.
この研究は,セルビア語英語間,スペイン語英語間citepre1そしてブルトン語フランス語間citepre2における統計翻訳において行われている.
また日野らの研究においても,日本語英語間の統計翻訳における対訳文と対訳句の学習データへの追加の効果が報告されているcitehino .
par
しかし,これらの先行研究の実験環境においては,対訳文とは別の新たな対訳句を学習データに追加したものを学習に用いている.
この場合,翻訳精度向上の理由として考えられるのは,新たな対訳句の学習により正しい対訳句の対応が強調されたことと,
新たな対訳句の学習により単に対訳データの語彙量が増加したことの,大きく2つの要因が考えられる.
そのため,実際に正しい対訳句の対応が強調されたことが,どの程度,翻訳精度の向上に効果があったのかはわからない.
また,新たな対訳句の学習には,対訳句の収集にコストがかかるため,学習に用いるデータの収集の面でも問題が残る.
par
そこで,本研究では,対訳データの語彙量の増加が生じない実験環境においても,正しい対訳句の対応が強調されていれば翻訳精度が向上すると予想する.
そして,対訳データの語彙量の増加が生じない実験環境において,対訳文と対訳句を学習データに追加したものを用いた統計翻訳の有効性の調査を行う.
具体的に,対訳データの語彙量の増加が生じない実験環境とは,学習に用いる対訳文から対訳句を抽出することにより実現する.
この実験環境において,正しい対訳句の対応が強調されたことが,どの程度,翻訳精度の向上に効果があったのか調査する.
また,この実験環境で翻訳精度が向上すれば,あらかじめ用意する対訳データとしては対訳文のみを用意すればよいため,対訳データ収集のコストを増やすことなく,翻訳精度を向上させることができる.
さらに,対訳句の抽出方法として,手動抽出と自動抽出の2通りの抽出方法を試し,対訳句の抽出精度やその対訳句を用いた場合の統計翻訳の翻訳精度の調査を行う.
日英対訳文は重文複文citecorpusを用いる.
日英対訳句として日英対訳文から抽出した対訳句を用いる.
par
その結果,自動評価と人手評価のどちらにおいても提案手法の翻訳精度は向上した.
よって,対訳データの語彙量の増加が生じない実験環境においても,正しい対訳句の対応が強調されていれば翻訳精度が向上することがわかり.
対訳文と対訳句を学習データへ追加した対訳データを用いた統計翻訳の有効性が示された.
par
本論文の構成は以下の通りである.
まず,refsyo:tokei章で統計翻訳システムの概要を示し,各モデルの学習,評価方法について述べる.
refsyo:teian章では,本研究の提案手法について述べる.
refsyo:taiyakuku章では,対訳句の抽出システムの概要を示し,各抽出方法について述べる.
refsyo:kankyo章では,実験に用いるデータやツールといった実験環境について述べる.
refsyo:jikken章では,提案手法の結果を示す.
そして,refsyo:kosatsu章では,考察を行う.
最後に,refsyo:matome章で結論を述べ,まとめる.
par
chapter統計翻訳システムlabelsyo:tokei
section概要
統計翻訳とは,機械翻訳手法の一種である.原言語と目的言語の対訳文を大量に収集した対訳データにより,自動的に翻訳規則を獲得し翻訳を行う.
par
統計翻訳には ``単語に基づく統計翻訳'' と ``句に基づく統計翻訳'' があり, 初期の統計翻訳では単語に基づく統計翻訳が用いられていた.
しかし近年, 句に基づく統計翻訳が提案され, 単語に基づく統計翻訳に比べて翻訳精度が高いことがわかった. このため現在は句に基づく統計翻訳が主流となっている.
par
section単語に基づく統計翻訳
単語に基づく統計翻訳は単語対応の翻訳モデルを用いている.
例として,ある日本語文を英語文に翻訳する場合を考える.
日本語単語を英語単語に翻訳し,日本語文の語順と同じ並びで英語単語を並べて翻訳する.
単語に基づく統計翻訳は単語対応の確率を得るIBM翻訳モデルciteIBMmodelが用いられている.
以下に,IBM翻訳モデルを用いて得た英日方向における単語対応の例と,日英方向における単語対応の例を示す.また,●は単語が対応した箇所を示す.
par
begintable[H]
begincenter
caption日英方向の単語対応labeltb:m2
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to & see & a & movie
hline
私 & ● & & & & &
hline
は & & & & & ● &
hline
映画 & & & & & & ●
hline
を & & & ● & & &
hline
見 & & & & ● & &
hline
に & & & & ● & &
hline
行く & & ● & & & &
hline
endtabular
endcenter
endtable
par
begintable[H]
begincenter
caption英日方向の単語対応labeltb:m1
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to & see & a & movie
hline
私 & ● & & & & &
hline
は & & & & & &
hline
映画 & & & & & & ●
hline
を & & & & & ● &
hline
見 & & & & ● & &
hline
に & & & & & &
hline
行く & & ● & ● & & &
hline
endtabular
endcenter
endtable
par
表reftb:m2は全ての単語に対して対応がとれている.
一方で,表reftb:m1は日本語単語 ``は'' と ``に'' に対応する英語単語が存在しない.
単語に基づく統計翻訳は対応する単語が存在しない場合,何も無い状態から単語の発生確率を計算する.このため単語翻訳確率の信頼性が問題となっている.
よって現在は句単位の対応を用いた統計翻訳(句に基づく統計翻訳)が行われている.
par
newpage
par
section句に基づく統計翻訳
句に基づく統計翻訳は句対応の翻訳モデルを用いる. 原言語文を目的言語文に翻訳する場合に,隣接する複数の単語(フレーズ)を用いて翻訳を行う方法である.
本研究では日英方向の翻訳を行うため,日英統計翻訳を説明する.日英統計翻訳システムの流れを図reffig:2に示す.
beginfigure[H]
begincenter
includegraphics[width=13cm]smt.eps
endcenter
caption日英統計翻訳の流れ
labelfig:2
endfigure
par
日英統計翻訳は,日本語入力文が与えられた場合に,翻訳モデルと言語モデルの組み合わせの中から確率が最大となる英語翻訳文を探索することで翻訳を行う.以下にその基本モデルを示す.
par
begineqnarray
E&=&argmax_jP(e|j)
&simeq&argmax_eP(j|e)P(e)
endeqnarray
ここでは翻訳モデル,は言語モデルを示す.が単語であれば``単語に基づく統計翻訳''のモデル,が句であれば,``句に基づく統計翻訳''のモデルとなる.
indent
また,学習データとは対訳文(日本語文と英語文の対)を大量に用意したものである. 学習データに含まれる各々のデータから, 翻訳モデルと言語モデルを学習する.
par
subsectionGIZA++
GIZA++ citegizaとは,統計翻訳で用いることを前提に作られたツールである.
IBM翻訳モデルを用いて,対訳文(原言語文と目的言語文の対)から対訳単語と単語翻訳確率を自動的に得る.
par
subsection言語モデル
言語モデルは翻訳候補の文に対して目的言語の文らしさの指標を与えるモデルである.
翻訳モデルでは,訳語の選択や訳語の位置の選択に対する評価を与えることはできるが,
作られた翻訳候補が目的言語の文としてふさわしいかどうかを判断する評価を与えることはできない.
そのため,言語モデルでは日英統計翻訳の場合,より英語らしい文に対して,高い確率を与えることで,
翻訳モデルで翻訳された訳文候補の中から英語として自然な文を選出する.
par
subsection翻訳モデル
翻訳モデルとは,膨大な量の対訳データを用いて日本語のフレーズが英語のフレーズへ確率的に翻訳を行うためのモデルである.
この翻訳モデルはフレーズテーブルで管理されている.以下にフレーズテーブルの例を示す.
par
beginitemboxフレーズテーブルの例
その 花 The flower 0.428571 0.0889909 0.428571 0.0907911 2.718
今晩 の コンサート は Tonight's concert is 0.5 0.000223681 0.5 0.0124601 2.718
enditembox
indent
左から日本語フレーズ,英語フレーズ,フレーズの英日方向の翻訳確率,
英日方向の単語の翻訳確率の積,フレーズの日英方向の翻訳確率,日英
方向の単語の翻訳確率の積,フレーズペナルティ(値は常に自然対数の底e=2.718)である.
newpage
subsectionフレーズテーブル作成法
まず,GIZA++を用いて学習文から日英,英日方向の双方向で最尤な単語アライメントを得る.
日英方向の単語対応の例を表reftb:f2に示す,英日方向の単語対応の例を表reftb:f1.また,●は単語が対応した箇所を示す.
par
begintable[H]
begincenter
caption日英方向の単語対応labeltb:f2
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to & see & a & movie
hline
私 & ● & & & & &
hline
は & & & & ● & &
hline
映画 & & & & & & ●
hline
を & & & & ● & &
hline
見 & & & & ● & &
hline
に & & & & ● & &
hline
行く & & & & ● & &
hline
endtabular
endcenter
endtable
par
begintable[H]
begincenter
caption英日方向の単語対応labeltb:f1
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to & see & a & movie
hline
私 & ● & & & & &
hline
は & & & & & &
hline
映画 & & & & & & ●
hline
を & & & & & ● &
hline
見 & & ● & ● & ● & &
hline
に & & & & & &
hline
行く & & & & & &
hline
endtabular
endcenter
endtable
par
次に,得られた双方向の単語アライメントを用いて,複数単語のアライメントを得る.
このアライメントは双方向の単語対応の和集合と積集合から求める.
ヒューリスティックスとして双方向ともに対応する単語対応を用いる``intersection'',双方向のどちらか一方でも対応する単語対応を全て用いる``union''がある.
表reftb:f1と表reftb:f2を用いた``intersection''の例を表reftb:f3,``union''の例を表reftb:f4に示す.
newpage
begintable[H]
begincenter
captionintersectionの例labeltb:f3
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to &see & a & movie
hline
私 & ● & & & & &
hline
は & & & & & &
hline
映画 & & & & & & ●
hline
を & & & & & &
hline
見 & & & & ● & &
hline
に & & & & & &
hline
行く & & & & & &
hline
endtabular
endcenter
endtable
par
begintable[H]
begincenter
captionunionの例labeltb:f4
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to & see& a & movie
hline
私 & ● & & & & &
hline
は & & & & ● & &
hline
映画 & & & & & & ●
hline
を & & & & ● & ● &
hline
見 & & ● & ● & ● & &
hline
に & & & & ● & &
hline
行く& & & & ● & &
hline
endtabular
endcenter
endtable
par
また``intersection''と``union''の中間のヒューリスティックスとして``grow''と``grow-diag''がある.
これら2つのヒューリスティックスでは``intersection''の単語対応と``union''の単語対応を用いる.
``grow''は縦横方向,``grow-diag''は縦横対角方向に,``intersection''の単語対応から``union''の単語対応が存在する場合にその単語対応も用いる.
``grow''の例を表reftb:f5に,``grow-diag''の例を表reftb:f6に示す.
newpage
par
begintable[H]
begincenter
captiongrowの例labeltb:f5
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to &see & a & movie
hline
私 & ● & & & & &
hline
は & & & & & &
hline
映画 & & & & & & ●
hline
を & & & & ● & &
hline
見 & & & & ● & &
hline
に & & & & ● & &
hline
行く & & & & & &
hline
endtabular
endcenter
endtable
par
begintable[H]
begincenter
captiongrow-diagの例labeltb:f6
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to &see & a & movie
hline
私 & ● & & & & &
hline
は & & & & & &
hline
映画 & & & & & & ●
hline
を & & & & ● & ● &
hline
見 & & & ● & ● & &
hline
に & & & & ● & &
hline
行く & & & & & &
hline
endtabular
endcenter
endtable
par
``grow-diag''の最後に行う処理として``final''と``final-and''がある.``final''は少なくとも片方の言語の単語対応がない場合に,``union''の単語対応を追加する.
また,``final-and''は,両側言語の単語対応がない場合に,``union''の候補対応点を追加する.
``grow-diag-final''の例を表reftb:f7に,``grow-diag-final-and''の例を表reftb:f8に示す.
par
newpage
begintable[H]
begincenter
captiongrow-diag-finalの例labeltb:f7
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to &see & a & movie
hline
私 & ● & & & & &
hline
は & & & & ● & &
hline
映画 & & & & & & ●
hline
を & & & & ● & ● &
hline
見 & & ● & ● & ● & &
hline
に & & & & ● & &
hline
行く & & & & ● & &
hline
endtabular
endcenter
endtable
par
begintable[H]
begincenter
captiongrow-diag-final-andの例labeltb:f8
begintabular|c|c|c|c|c|c|c|
hline
& I & go & to &see & a & movie
hline
私 & ● & & & & &
hline
は & & & & & &
hline
映画 & & & & & & ●
hline
を & & & & ● & ● &
hline
見 & & ● & ● & ● & &
hline
に & & & & ● & &
hline
行く & & & & & &
hline
endtabular
endcenter
endtable
par
得られた単語アライメントから,全ての矛盾しないフレーズ対を得る.このとき,そのフレーズ対に対して翻訳確率を計算し,フレーズ対に確率値を付与することでフレーズテーブルを作成する.
newpage
par
subsectionパラメータチューニング
パラメータチューニングは,デコーダで用いるパラメータを最適化することである.
一般的にMinimum Error Rate Training(MERT) citemosesという手法が用いられる.
MERTは目的の評価関数(一般的にはBLEU)を最大にする翻訳結果が選ばれるように,パラメータ調整を行う.この際,ディベロップメントデータと呼ばれる,試し翻訳を行うデータを与る.
そして,各文に対して上位100個程度の翻訳候補を出力し,よりよい翻訳候補が上位にくるようパラメータを調整する.
par
section評価方法
本研究では,翻訳システムによって出力した文の評価に自動評価法と人手評価法を用いる.
subsection自動評価法
機械翻訳システムの翻訳精度を自動的に評価する手法として,あらかじめ用意した正解文と,翻訳システムで出力した文とを比較する手法が一般的である.
自動評価法には多くの手法がある.
本研究では,BLEUcitebleu,METEORcitemeteor,RIBESciteribesを用いる.
par
subsubsectionBLEU
BLEUは語順(4-gram)が正しい場合に高いスコアを出す.
BLEUは以下の式で計算される.
begineqnarray
BLEU_score &=& BP times exp left( sum_n=1^N frac1N log p_n right)
p_n &=& frac displaystylesum_i mbox出力文it iと正解文it iで一致したit N-gramの数
displaystylesum_imbox出力文it iのit N-gramの数
endeqnarray
par
ここで,は出力文と正解文のit N-gramの一致率を表している.
BLEUはこの一致率を1-gramから4-gramまで計算し,その幾何平均をとる.
また,出力文が正解文より短い場合,``
出力文it iのit N-gramの数''が小さくなり,不当にスコアが高くなる可能性がある.
そこで,正解文より短い文に対するペナルティとして,を用いる.
は出力文が正解文より長い場合は1となり,出力文が正解文より短い場合は1未満の値となる.
par
subsubsectionMETEOR
METEORは単語属性(3人称単数など)が正しい場合に高いスコアを出す.
METEORは以下の式で計算される.
begineqnarray
METEOR_score &=& F_mean times (1-Pen)
F_mean&=& fracP times Ralpha times P + (1-alpha) times R
Pen &=& gamma times (fraccm)^beta
endeqnarray
par
METEORはまず再現率と適合率に基づくF値を求め,次に,単語の非連続性に対するペナルティとして関数を与える.
ペナルティ関数において,は出力文と正解文の単語の一致率を表す.
そして,は一致した単語を対象に,正解文と語順が同じものを1つのまとまりとして統合した場合の,まとまりの数を表す.
そのため,出力文と正解文が同じ文であるとき=1となる.
また,一致率の計算において,WordNetによる類義語を用いて,似た意味を持つ単語は同一であると判断される.
,,の値はパラメータである.
par
BLEUとMETEORとRIBESでは0から1までの間で評価され,NISTでは0から∞までの間で評価される.
いずれの評価方法でも,評価方法が高いほど翻訳精度が高いことを表す.
なお,本研究では入力文1文に対して正解文1文を用いて評価を行う.
par
subsubsectionRIBES
RIBESは,正解文と出力文の間で,共通単語の出現順序を順位相関係数で評価を行う評価法である.
RIBESは以下の式で計算される.
begineqnarray
RIBES(S) &=& NSR × P^alpha
RIBES(K) &=& NKT × P^alpha
P &=& fracnh
endeqnarray
par
ここで,はスピアマンの順位相関係数であり,はケンドールの順位相関係数である.
またPはペナルティであり,は出力文と正解文との間で共通な単語の数,は出力文の単語数で計算する.
はペナルティに対して主として使用され,
の値である.
単語の出現順を順位相関係数を用いて評価することで,文全体の語順に着目することができる.
par
subsection人手評価
人手評価として,対比較評価がある.
対比較評価は,二つの文を相対的に比較して,どちらがより正しい文であるかを人手で選択する評価方法である.
二つの翻訳システムの出力で優劣を判断する場合に有効である.
par
対比較を行う例を表reftui-rei1に示す.
表reftui-rei1より,textquotedblleft 手法A"とtextquotedblleft 手法B"を比較すると,正しい翻訳をしている文はtextquotedblleft 手法B"である.
よって,この場合は評価者によって,表reftui-rei2の選択肢からtextquotedblleft 手法B○"が選択される.
また,textquotedblleft 手法A"とtextquotedblleft 手法B"の対比較評価を100文に対して行った場合の結果の例を表reftui-rei3に示す.表reftui-rei3ではtextquotedblleft 手法B"が優れていると見て取ることができる.
par
また,人手評価は評価者によって評価に差が出てくる可能性がある.
しかし,表reftui-rei1のように正解文を用意しておき,参照して対比較評価を行うことで,信頼性を高める.
par
newpage
par
begintable[htbp]
begincenter
captionlabeltui-rei1対比較例評価出力例
begintabularll
Hline
例1 &
hline
入力文 & これ は 卒業 論文 です 。
正解文 & This is a graduation thesis.
手法A rule[0mm]0mm7mm & This is a student yearbook.
手法B & This is a thesis of graduation.
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
captionlabeltui-rei2対比較評価基準
begintabularll
Hline
基準名 & 意味
hline
手法A○ & 手法Aの方が良い
手法B○ & 手法Bの方が良い
差なし & 手法Aと手法Bの出力文の単語対応や伝わる意味に差がない
一致 & 手法Aと手法Bの出力文が完全一致
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
caption手法A VS 手法Blabeltui-rei3
vspace3mm
begintabularcccc
Hline
手法A○&手法B○&差なし&一致
hline
3文 & 12文 & 78文 & 7文
hline
endtabular
endcenter
endtable
par
chapter提案手法labelsyo:teian
本研究では,翻訳モデル作成の際の学習データとして日英対訳文とその日英対訳文から抽出された日英対訳句を学習データへ追加した日英対訳データを用いる.
具体的な日英対訳句の抽出方法としては,手動で日英対訳文から日英対訳句を抽出する手動抽出と,自動で日英対訳文から日英対訳句を抽出する自動抽出がある.
そして,提案手法として2通りの実験手法を試みる.
日英対訳文から日英対訳句を抽出する際に手動抽出を用いた場合を手動手法,日英対訳文から日英対訳句を抽出する際に自動抽出を用いた場合を自動手法とする.
par
日英統計翻訳の流れの手順を以下に示す.
begindescription
item[手順1]英語文を学習データとして言語モデルを作成する
item[手順2]日英対訳文とその日英対訳文から抽出した日英対訳句を組み合わせた日英対訳データを作成する
item[手順3]手順2で作成した日英対訳データを学習データとして翻訳モデルを作成する
item[手順4]手順1と手順3で作成したモデルを用いて統計翻訳を行う
enddescription
par
newpage
par
section日英統計翻訳の流れ
図reffig:proに日英統計翻訳の流れを示す.
beginfigure[htbp!!!!!!!!!!!!!!!!!!!!!!!!!!1]
begincenter
fbox
includegraphics[width=130mm]kikaku6.eps
endcenter
caption日英統計翻訳の流れlabelfig:pro
endfigure
par
newpage
par
section日英対訳句抽出システムlabelsyo:taiyakuku
提案手法において,日英対訳文から日英対訳句を抽出する必要がある.
日英対訳文から日英対訳句を抽出する手法には大きく分けて手動抽出と自動抽出の2通りの手法がある.
本章では,この2通りの手法の説明を行う.
subsection手動抽出
日英対訳句の手動抽出の方法として,日英対訳文とその日英対訳文から手動で作成した日英対訳文パターンを用いる方法がある.
具体的には,日英対訳文とその日英対訳文から手動で作成した日英対訳文パターンを比較した変数部から品詞がit AJ(形容詞),it V(動詞),it N(名詞),it ADV(副詞),it AJV(形容動詞),it VP(動詞句),
it AJVP(形容動詞句),it ADVP(形容詞句),it NP(名詞句)の日英対訳句を抽出し作成する.
また,日英対訳句は基本的に句単位で抽出しているが,単語単位や節単位の形で抽出されたものも含まれる.
なお,詳しい日英対訳文パターン作成方法は池原らの論文citetori_ronを参照のこと.
par
日英対訳文の例を表reftori_sentence,日英対訳文パターンの例を表reftori_pattern,日英対訳文と日英対訳文パターンの比較により抽出された日英対訳句を表reftori_phraseに示す.
begintable[h!]
begincenter
small
caption日英対訳文の例labeltori_sentence
vspace3mm
begintabularl
Hline
彼 の お母さん が ああ 若い と は 思わ なかっ た 。
I never expected his mother to be so young .
hline
endtabular
endcenter
endtable
par
begintable[h!]
begincenter
small
caption日英対訳文パターンの例labeltori_pattern
vspace3mm
begintabularl
Hline
it N1 it N2 が ああ it N3 と は it N4 なかっ た 。
I never it N4 it N1 it N2 to be so it N3 .
hline
endtabular
endcenter
endtable
par
newpage
par
begintable[h]
begincenter
caption日英対訳文と日英対訳文パターンの比較により抽出された日英対訳句の例labeltori_phrase
vspace3mm
small
begintabularll
Hline
日本語句 &英語句
hline
彼 の & his
お母さん & mother
彼 の お母さん & his mother
若い & young
思わ & expected
hline
endtabular
endcenter
endtable
par
subsection自動抽出
日英対訳句の自動抽出の方法として,日英対訳文とその日英対訳文から自動で作成した日英対訳文パターンを用いる方法がある.
具体的には,まず,GIZA++を用いて,日英対訳単語を作成する.
次に,その日英対訳単語と日英対訳文を用いて日英対訳文パターンを作成する.
そして,日英対訳文と日英対訳パターンを用いて日英対訳句を抽出する.
par
labelsec:3.1
subsubsection日英対訳単語の作成
labelsubsec:3.1.1
GIZA++を用いて,日英対訳単語を作成する.
手順を以下に示す.
par
begindescription
item[手順1] GIZA++を用いて日英対訳文から日英方向と英日方向の単語対応を得る.
item[手順2] 単語対応より日英対訳単語を得る.
item[手順3] 日英方向と英日方向の単語の翻訳確率を掛け合わせ,日英対訳単語の翻訳確率(以下,日英対訳単語翻訳確率と表記)を得る.
item[手順4] 日英対訳単語翻訳確率が一定の閾値()以上である日英対訳単語を抽出する.
enddescription
日英対訳単語の作成の例を図reffig:method_1に示す.
par
beginfigure[htbp]
begincenter
fbox
includegraphics[scale=.75]method_1.eps
caption日英対訳単語作成の例
labelfig:method_1
endcenter
endfigure
par
newpage
par
subsubsection日英対訳文パターンの作成
labelsubsec:3.1.2
日英対訳単語と日英対訳文を用いて日英対訳文パターンを作成する.
手順を以下に示す.
par
begindescription
item[手順1] refsubsec:3.1.1節で抽出した日英対訳単語が日英対訳文中で適合した場合,変数化を行い,日英対訳文パターンを得る.
item[手順2] 日英対訳文パターンの英文パターンにおいて,変数の直前に冠詞がある場合,冠詞を除去する.
enddescription
par
なお,変数が連続しない日英対訳文パターンのみを本研究で用いる日英対訳文パターンとする.
日英対訳文パターンの作成の例を図reffig:method_2に示す.
par
beginfigure[htbp]
begincenter
fbox
includegraphics[scale=.5]method_2.eps
caption日英対訳文パターン作成の例
labelfig:method_2
endcenter
endfigure
par
newpage
par
subsubsection日英対訳句の抽出
labelsubsec:3.1.3
日英対訳文と日英対訳文パターンを用いて日英対訳句を抽出する.
手順を以下に示す.
par
begindescription
item[手順1] 日英対訳文と日英対訳文パターンを照合する.
item[手順2] 日英対訳文が日英対訳文パターンに適合した場合,日英対訳文パターンの変数部に対応する対を日英対訳句として抽出する.
enddescription
par
日英対訳文パターンの作成の例を図reffig:method_3に示す.
par
beginfigure[htbp]
begincenter
fbox
includegraphics[scale=.5]method_3.eps
caption日英対訳句抽出の例
labelfig:method_3
endcenter
endfigure
par
newpage
par
section提案手法の設定
par
本研究の,提案手法として,2通りの実験手法を設定する.2通りの実験手法を以下に示す.
begindescription
item[手動手法]日英統計翻訳の流れの手順2において,日英対訳文から日英対訳句を抽出する
際に手動抽出を用いた場合の手法
item[自動手法]日英統計翻訳の流れの手順2において,日英対訳文から日英対訳句を抽出する
際に自動抽出を用いた場合の手法
enddescription
par
chapter実験環境labelsyo:kankyo
par
section実験データ
本研究では,実験データとして日英対訳文の重文複文citecorpusを用いる.
本研究で用いる日英対訳文の内訳を表refcorpusに示す.
日英対訳文の例を表reftab:1に示す.
par
begintable[h]
begincenter
caption日英対訳文の内訳labelcorpus
begintabularlrr
Hline
& 日本語 & 英語
hline
学習データ(文) & multicolumn2c100,000
単語数(語) & 1,404,366 & 1,137,163
異なり単語数(語) & 38,530 & 37,035
平均文長(文) & 14.0 & 11.4
hline
テストデータ(文) & multicolumn2c10,000
単語数(語) & 140,671 & 113,586
異なり単語数(語) & 13,765 & 12,176
平均文長(文) & 14.1 & 11.4
hline
デベロップメントデータ(文) & multicolumn2c1,000
単語数(語) & 14,237 & 1,11,591
異なり単語数(語) & 3,438 & 3,047
平均文長(文) & 14.3 & 11.6
hline
endtabular
endcenter
endtable
par
begintable[h!]
begincenter
small
caption日英対訳文の例labeltab:1
vspace3mm
begintabularl
Hline
あの 男 は あいさつ も せ ず に 帰っ て しまっ た 。
That man left without so much as saying goodbye .
hline
endtabular
endcenter
endtable
par
section実験ツール
統計翻訳の前処理として,日本語句と日本語文に対して,MeCabcitemecabを用いて形態素解析を行う.
また,英語句と英語文に対して textquotedblleft tokenizer.sed citetoke"を用いて分かち書きを行う.
par
翻訳モデルの学習には,``train-model.perlcitemoses''を用いる.言語モデルの学習には,
``SRILMcitesrilm"の``ngram-count"を用いる.
本研究では,textitN-gramモデルはtextit5-gramとする.
par
本実験では統計翻訳のデコーダとして,``mosescitemoses''を用いる.
mosesのパラメータは,``mert-moses.plcitemoses''を用いてチューニングを行う.
また,統計翻訳においては,
mosesの設定ファイル``moses.ini''の``distortion-limit''の値を``''に変更する.
distortion-limitはフレーズの並び替えを制限する値である.にすることで,無制限とする.
par
section評価方法
本研究では,出力文の評価として自動評価と人手評価を行う.
自動評価は自動評価法textquotedblleft BLEUcitebleu",textquotedblleft METEORcitemeteor",textquotedblleft RIBESciteribes"を用いる.
人手評価は出力文からランダムに100文抽出し,対比較評価を行う.
par
chapter日英対訳句の抽出labelsyo:tyusyutu
本研究では,日英対訳句として前章で示した学習データとして用いた日英対訳文の重文複文から抽出したものを用いるcitepataji.
本章では,翻訳実験で用いる日英対訳句の抽出を行う.
具体的な日英対訳句の抽出方法としては,手動で日英対訳文から日英対訳句を抽出する手動抽出と,自動で日英対訳文から日英対訳句を抽出する自動抽出がある.
par
section手動抽出
手動抽出した日英対訳句として,鳥バンクcitepatajiの手動で作成したパターンと原文を比較した変数部から品詞がit AJ(形容詞),it V(動詞),it N(名詞),it ADV(副詞),it AJV(形容動詞),it VP(動詞句),
it AJVP(形容動詞句),it ADVP(形容詞句)の日英対訳句を抽出したものを用いる.
本研究で用いる,手動抽出した日英対訳句の内訳を表refdicに示す.
日英対訳句の例を表reftab:2に示す.
par
begintable[h]
begincenter
caption手動抽出した日英対訳句の内訳labeldic
vspace3mm
begintabularlrr
Hline
& 日本語 & 英語
hline
学習データ(句) & multicolumn2c549,694
単語数(語) & 1,058,949 & 1,031,265
異なり単語数(語) & 35,613 & 34,823
平均句長(語) & 1.93 & 1.88
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
caption手動抽出した日英対訳句の例labeltab:2
vspace3mm
small
begintabularll
Hline
日本語句 &英語句
hline
帰っ & left
あの & That
あの男 & That man
男 & man
あいさつ & saying goodbye
hline
endtabular
endcenter
endtable
par
手動抽出した日英対訳句には誤りが存在する.そこで,ランダムに100句抽出して人手評価を行った.
評価基準を以下に示す.
評価結果と評価例を表reftori_reiに示す.
par
begindescription
item[○]適切な対応をとる日英対訳句
item[△]部分的に適切な対応をとる日英対訳句
item[×]不適切な対応をとる日英対訳句
enddescription
par
begintable[h]
begincenter
caption手動抽出した日英対訳句の評価結果と評価例labeltori_rei
vspace3mm
small
begintabularllll
Hline
評価 & 句数 &multicolumn2l日英対訳句例
hline
multicolumn1r○ & multicolumn1r83句 &この分野 & this field
& & 紋章 & a coat of arms
& & 外国為替市場 & the foreign exchange market
hline
multicolumn1r△ & multicolumn1r12句 & 私 & My
& & 両社 & companies
& & 少しも & a stroke
hline
multicolumn1r× & multicolumn1r5句 & ぴたっと & all
& & 日本 & it
& & ナポレオン & his
hline
endtabular
endcenter
endtable
par
section自動抽出
自動抽出した日英対訳句として,日英対訳文とその日英対訳文から自動で作成した日英対訳文パターンを用いて抽出したものを用いる.
具体的には,まず,GIZA++を用いて,日英対訳単語を作成する.
次に,その日英対訳単語と日英対訳文を用いて日英対訳文パターンを作成する.
そして,日英対訳文と日英対訳パターンを用いて日英対訳句を抽出する.
また,refsubsec:3.1.1節で説明した,日英対訳単語翻訳確率の値に対しての閾値としてを用いる.
par
自動抽出によって得られた日英対訳句の内訳を表refdic2に示す.
par
begintable[h]
begincenter
caption自動抽出した日英対訳句の内訳labeldic2
vspace3mm
begintabularlrr
Hline
& 日本語 & 英語
hline
学習データ(句) & multicolumn2c18,192
単語数(語) & 56,885 & 43,638
異なり単語数(語) & 9,003 & 7,770
平均句長(語) & 3.13 & 2.4
hline
endtabular
endcenter
endtable
par
自動抽出した日英対訳句からランダムに100句抽出して人手評価を行った.
評価結果と評価例を表refphrase_reiに示す.
par
newpage
par
begintable[h]
begincenter
caption自動抽出した日英対訳句の評価結果と評価例labelphrase_rei
vspace3mm
small
begintabularllll
Hline
評価 & 句数 &multicolumn2l日英対訳句例
hline
multicolumn1r○ & multicolumn1r29句 & 5年間 & five years
& & 守ってくれる印 & symbol against evil
& & その問題を解くことができ & solved the problem
hline
multicolumn1r△ & multicolumn1r25句 & 遠く & long
& & いかにも精力的 & aggressive
& &この時刻に & at this hour
hline
multicolumn1r× & multicolumn1r46句 & ある & people
& & わたしの主義 & My
& & 職場を & lack of perseverance
hline
endtabular
endcenter
endtable
par
chapter翻訳実験labelsyo:jikken
本章の実験では,翻訳モデル作成の際の学習データとして,日英対訳文とその日英対訳文から抽出した日英対訳句を組み合わせた日英対訳データを用いる.
また,日英対訳句の抽出方法として,手動抽出と自動抽出を用いる.
手動抽出した日英対訳句を用いた手法を手動手法,自動抽出した日英対訳句を用いた手法を自動手法とする.
翻訳モデル作成の際の学習データとして,日英対訳文のみを用いる場合をbaseline手法として,手動手法と自動手法との翻訳精度の比較を行う.
par
section実験手法
以下に翻訳実験における,実験手法を示す.
par
begindescription
item[baseline手法]日英対訳文のみを用いて学習を行った場合の手法
item[手動手法]日英統計翻訳の流れの手順2において,日英対訳文から日英対訳句を抽出する
際に手動抽出を用いた場合の手法
item[自動手法]日英統計翻訳の流れの手順2において,日英対訳文から日英対訳句を抽出する
際に自動抽出を用いた場合の手法
enddescription
par
newpage
par
section自動評価結果
実験の翻訳結果に対する自動評価結果を表ref4.1に示す.
par
begintable[!h]
begincenter
caption自動評価結果
vspace3.2mm
label4.1
begintabularlrrr
Hline
自動評価手法&baseline手法&手動手法&自動手法
hline
BLEU(%) & 11.98 & bf 14.18 & 12.54
METEOR(%) & 39.62 & bf 44.71 & 42.55
RIBES(%) & 66.54 & bf 69.30 & 68.02
hline
endtabular
endcenter
endtable
par
自動評価結果のまとめを以下に示す.
par
beginitemize
item 自動手法と手動手法共にbaseline手法と比較すると自動評価値が向上している.
item 自動手法と手動手法を比較すると手動手法の方が自動評価値が向上している.
enditemize
par
section人手評価結果
対比較評価結果の表記の説明を以下に示す.
par
beginitemize
item textgtbaseline手法○
par
対比較評価において,比較対象の翻訳結果の翻訳精度よりもbaseline手法がより優れていると判断した場合
item textgt手動手法○
par
対比較評価において,比較対象の翻訳結果の翻訳精度よりも手動手法がより優れていると判断した場合
par
item textgt差なし
par
対比較評価において,比較する両実験の翻訳結果の翻訳精度に明確な差がないと判断した場合
par
item textgt一致
par
対比較評価において,比較する両実験の翻訳結果が完全に同ー出力の場合
enditemize
人手評価手法として出力結果からランダムに100文抽出して対比較評価を行う.
baseline手法と手動手法の対比較評価結果を表refHitode_bm,baseline手法と自動手法の対比較評価結果を表refHitode_ba,
手動手法と自動手法の対比較評価結果を表refHitode_maに示す.
par
begintable[h]
begincenter
captionbaseline手法 VS 手動手法labelHitode_bm
vspace3mm
begintabularcccc
Hline
baseline手法○&手動手法○&差なし&一致
hline
3文 & bf 16文 & 77文 & 4文
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
captionbaseline手法 VS 自動手法labelHitode_ba
vspace3mm
begintabularcccc
Hline
baseline手法○&自動手法○&差なし&一致
hline
7文 & bf 17文 & 64文 & 12文
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
caption手動手法 VS 自動手法labelHitode_ma
vspace3mm
begintabularcccc
Hline
手動手法○&自動手法○&差なし&一致
hline
10文 & 7文 & 76文 & 7文
hline
endtabular
endcenter
endtable
par
人手評価結果のまとめを以下に示す.
par
beginitemize
item 自動手法と手動手法共にbaseline手法と比較すると人手評価が高い.
item 自動手法と手動手法を比較すると手動手法の方が人手評価が高い.
enditemize
par
newpage
par
begindescription
item[表ref4.32]baseline手法と手動手法の翻訳結果の対比較評価において,baseline手法が良いと判断した例
item[表ref4.33]baseline手法と手動手法の翻訳結果の対比較評価において,手動手法が良いと判断した例
item[表ref4.34]baseline手法と手動手法の翻訳結果の対比較評価において,差なしと判断した例
enddescription
par
begintable[!h]
begincenter
captionbaseline手法 手動手法
label4.32
begintabularll
Hline
入力文 &あんなやつを負かすのは何でもない。
正解文 &I can beat him hands down .
baseline手法 &on my mettle , I can beat him hands down .
手動手法 &I can beat him .
Hline
入力文 &パンを買うお金をいくらか下さい。
正解文 &Give me something to buy bread with .
baseline手法 &Please put some money to buy bread .
手動手法 &Please some money to buy bread .
Hline
入力文 &この問題が解決されるまでには何年も待たねばなるまい。
正解文 &We would have to wait a good number of years before this
&problem is solbed .
baseline手法 &I will have to wait years before it can be solved the problem .
手動手法 &This problem can be solved by will have to wait for years .
hline
endtabular
endcenter
endtable
par
newpage
par
begintable[!h]
begincenter
captionbaseline手法 手動手法
label4.33
begintabularll
Hline
入力文 &警官は私に止まれと合図した。
正解文 &The policeman gave me a sign to stop .
baseline手法 &The policeman to me to stop .
手動手法 &The policeman signaled to me to stop .
Hline
入力文 &世間の口はうるさいものだ。
正解文 &People will talk .
baseline手法 &I find it of the world .
手動手法 &It is mouth of the world .
Hline
入力文 & 彼は愉快な人だ。
正解文 &He is a lot of fun .
baseline手法 &He is a person .
手動手法 &He is fun .
hline
endtabular
endcenter
endtable
par
begintable[!h]
begincenter
captionbaseline手法 手動手法
label4.34
begintabularll
Hline
入力文 &いつ死んでもよい。
正解文 &I am ready to die .
baseline手法 &I would rather die than ever .
手動手法 &It is all gone forever .
Hline
入力文 &まさに降ってわいた幸運だった。
正解文 &It was quite a windfall .
baseline手法 &It was nobody knew with what .
手動手法 &He sprang up if it was lucky .
Hline
入力文 &雨のため外出せず家に止まった。
正解文 &The rain kept me indoors .
baseline手法 &The rain stopped at home to go out .
手動手法 &He left out of the rain stopped at home .
hline
endtabular
endcenter
endtable
par
newpage
par
begindescription
item[表ref4.35]baseline手法と自動手法の翻訳結果の対比較評価において,baseline手法が良いと判断した例
item[表ref4.36]baseline手法と自動手法の翻訳結果の対比較評価において,自動手法が良いと判断した例
item[表ref4.37]baseline手法と自動手法の翻訳結果の対比較評価において,差なしと判断した例
enddescription
par
begintable[!h]
begincenter
captionbaseline手法 自動手法
label4.35
begintabularll
Hline
入力文 &パンを買うお金をいくらか下さい。
正解文 &Give me something to buy bread with .
baseline &Please put some money to buy bread .
自動手法 &Please some money to buy bread .
Hline
入力文 &生き物をいじめるのは悪い。
正解文 &It is wrong to torment any creature .
baseline手法 &Cruelty to living in the wrong .
自動手法 &It is wrong to living .
Hline
入力文 &暑さにやられて食欲がなくなってしまった。
正解文 &The sun has scorched up my appetite for food .
baseline手法 &I had no appetite and by heat .
自動手法 &Iwas destroyed the heat of appetite .
hline
endtabular
endcenter
endtable
par
newpage
par
begintable[!h]
begincenter
captionbaseline手法 自動手法
label4.36
begintabularll
Hline
入力文 &どうもそう思えてしようがない。
正解文 &I am strongly inclined to think so .
baseline &I can not think so .
自動手法 &I am strongly inclined to think so .
Hline
入力文 &ぜいたくをしていれば結局貧乏になる。
正解文 &Extravagance ends in want .
baseline手法 &If you have turned out to be a luxury .
自動手法 &If you extravagance turned out to be poor .
Hline
入力文 &彼はよい選び方をしたと思う。
正解文 &I think he made a good choice .
baseline手法 &He is a good one of my choice .
自動手法 &I think he is a nice choice .
hline
endtabular
endcenter
endtable
par
begintable[!h]
begincenter
captionbaseline手法 自動手法
label4.37
begintabularll
Hline
入力文 &あいつは何をやらせても抜けた男だ。
正解文 &Whatever you give him to do , he manages to get out of it .
baseline手法 &He is a man of whatever .
自動手法 &He is a man of him to do anything .
Hline
入力文 &今日ではなく、昨日行けば良かったのだ。
正解文 &We should have gone yesterday , not today .
baseline手法 &I am glad you yesterday, but today .
自動手法 &If you go , not today happened yesterday .
Hline
入力文 &道路を横断するときは車に注意しなさい。
正解文 &Watch out for the traffic when you cross the street .
baseline手法 &Be careful for cars when you cross the street .
自動手法 &The meeting started than thirty minutes behind schedule .
hline
endtabular
endcenter
endtable
par
newpage
par
begindescription
item[表ref4.38]手動手法と自動手法の翻訳結果の対比較評価において,手動手法が良いと判断した例
item[表ref4.39]手動手法と自動手法の翻訳結果の対比較評価において,自動手法が良いと判断した例
item[表ref4.40]手動手法と自動手法の翻訳結果の対比較評価において,差なしと判断した例
enddescription
par
begintable[!h]
begincenter
caption手動手法 自動手法
label4.38
begintabularll
Hline
入力文 &方々探したが見つからなかった。
正解文 &I looked everywhere , but I could not find it .
手動手法 &I looked everywhere , but I could not find it .
自動手法 &I looked for people , but could not find it .
Hline
入力文 &あなたはジョンの奥さんだと思い込んでいた。
正解文 &I was under the apprehension that you were John 's wife .
手動手法 &He has the illusion that you are John 's wife .
自動手法 &John 's wife was the illusion that he is a man of you .
Hline
入力文 &大金をもうける方法を考え出した。
正解文 &They worked out a plan for making a lot of money .
手動手法 &He thought out a way to make a lot of money .
自動手法 &thought out a way to make a large sum of money .
hline
endtabular
endcenter
endtable
par
newpage
par
begintable[!h]
begincenter
caption手動手法 自動手法
label4.39
begintabularll
Hline
入力文 &そんなことをしては弁解の余地がない。
正解文 &Such action admits of no excuse .
手動手法 &If you were to do such a thing .
自動手法 &There is no excuse to do such a thing .
Hline
入力文 &彼が言ったことについてよく考えてみた。
正解文 &I reflected upon what he had said .
手動手法 &I often think about what he said .
自動手法 &of about what he said .
Hline
入力文 &本報告書は、ディスクメモリー産業を詳細に調べたものである。
正解文 &This report takes an in-depth look at the disk memory industry .
手動手法 &The report to see the disk memory industry .
自動手法 &The report assesses the details of the disk memory industry .
hline
endtabular
endcenter
endtable
par
begintable[!h]
begincenter
caption手動手法 自動手法
label4.40
begintabularll
Hline
入力文 &子供を保護するのは親の務めだ。
正解文 &It is the parent 's job to protect their children .
手動手法 &It is the duty of parents to protect the children .
自動手法 &It is the duty of parents to protect the child .
Hline
入力文 &品物を順にまわして見てください。
正解文 &Please hand on the article .
手動手法 &The goods in turn , please and look .
自動手法 &Please , and the goods at least .
Hline
入力文 &この章を読み終えるまで待ってください。
正解文 &Wait till I have finished this chapter .
手動手法 &Please wait until I had finished reading this section .
自動手法 &Please wait until I finish this chapter to read .
hline
endtabular
endcenter
endtable
par
chapter自動抽出の改良に伴う自動手法の有効性の調査labelzidou_kairyo
自動抽出においては,パラメータを調節することなどの工夫をしていくことにより,より多くの日英対訳句の抽出や,より高い精度の日英対訳句の抽出が可能であると
考えられる.
そこで,本節では,パラメータの調節による自動抽出の改良に伴う,自動手法の有効性の調査を行う.
par
section単語翻訳確率の閾値の変更
本節では,refsubsec:3.1.1節で説明した,対訳単語翻訳確率の値に対しての閾値()を変更して実験を行う.
なお,翻訳実験の自動手法の際の自動抽出で用いた閾値は()となっている.
今回は,閾値(),閾値()で自動抽出を行い,抽出性能の評価を行う.
さらに,抽出された対訳句を用いた自動手法による翻訳実験を行う.
par
subsection対訳句の自動抽出
par
閾値()に設定した場合の自動抽出した日英対訳句の内訳を表refkousatu2.1,評価結果と評価例を表refkousatu2.2に示す.
閾値()に設定した場合の自動抽出した日英対訳句の内訳を表refkousatu2.3,評価結果と評価例を表refkousatu2.4に示す.
par
begintable[h]
begincenter
caption閾値()で自動抽出した日英対訳句の内訳labelkousatu2.1
vspace3mm
begintabularlrr
Hline
& 日本語 & 英語
hline
学習データ(句) & multicolumn2c58,515
単語数(語) & 167,143 & 131,103
異なり単語数(語) & 18,398 & 15,709
平均句長(語) & 2.86 & 2.24
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
caption閾値()で自動抽出した日英対訳句の評価結果と評価例labelkousatu2.2
vspace3mm
small
begintabularllll
Hline
評価 & 句数 &multicolumn2l日英対訳句例
hline
multicolumn1r○ & multicolumn1r29句 & わが子 & own child
& & に注意 & look out
hline
multicolumn1r△ & multicolumn1r15句 & 丈夫 & healthy
& & 入力 & simply enter
hline
multicolumn1r× & multicolumn1r56句 & 新聞 & Lend
& & 大家 & This piece
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
caption閾値()で自動抽出した日英対訳句の内訳labelkousatu2.3
vspace3mm
begintabularlrr
Hline
& 日本語 & 英語
hline
学習データ(句) & multicolumn2c6,423
単語数(語) & 16,715 & 12,911
異なり単語数(語) & 3,700 & 2,961
平均句長(語) & 2.6 & 2.0
hline
endtabular
endcenter
endtable
par
begintable[h!!!!!]
begincenter
caption閾値()で自動抽出した日英対訳句の評価結果と評価例labelkousatu2.4
vspace3mm
small
begintabularllll
Hline
評価 & 句数 &multicolumn2l日英対訳句例
hline
multicolumn1r○ & multicolumn1r36句 & この言葉 & This word
& & ほとんど不可能に近い & be almost impossible
hline
multicolumn1r△ & multicolumn1r29句 & 我々がその問題を解く & solve the problem
& & 病んだ。 & hurt her
hline
multicolumn1r× & multicolumn1r35句 & 恥 & honourable
& & する & your years
hline
endtabular
endcenter
endtable
par
表refkousatu2.1,表refkousatu2.2,表refkousatu2.3,表refkousatu2.4より,閾値を低い値に設定すると抽出できる対訳句数は増加するが,対訳句の精度は下がっている.
また,その逆に閾値を高く設定すると抽出できる対訳句数は減少するが,対訳句の精度は上がっている.
つまり,対訳句数と対訳句精度はトレードオフの関係になっていることがわかる.
par
subsection自動評価結果
閾値()に設定した場合の自動手法をtextquotedblleft 自動手法(0.1)",
閾値()に設定した場合の自動手法をtextquotedblleft 自動手法(0.15)",
閾値()に設定した場合の自動手法をtextquotedblleft 自動手法(0.2)"と表記する.
par
自動評価結果を表refkousatu2.5に示す.
par
begintable[!h]
begincenter
caption自動評価結果(%)
vspace3.2mm
labelkousatu2.5
begintabularlrrr
Hline
自動評価手法&自動手法(0.1)&自動手法(0.15)&自動手法(0.2)
hline
BLEU & 12.07 & bf 12.54 & 12.51
METEOR & 42.42 & bf 42.55 & 40.92
RIBES & 67.58 & bf 68.02 & 67.25
hline
endtabular
endcenter
endtable
par
表refkousatu2.5より,自動評価においては,閾値の変更に伴う自動評価結果にほとんど差は見られたなかった.
これは,閾値の変更では,対訳句数と対訳句精度のトレードオフが生じるためであると考えられる.
よって,閾値の変更では,抽出できる対訳句数の増加と同時に対訳句精度の向上を図ることは難しいと考える.
par
section頻度情報の活用
翻訳実験の自動手法の際の自動抽出において抽出される対訳句では頻度情報は活用されていない.
つまり,同じ対訳句は2度以上は抽出されない.
しかし,頻繁に出現する対訳句ほど信頼性が高い対訳句である可能性が高いため,
同じ対訳句が2度以上抽出されるようにすれば頻度情報を有効的に使い自動抽出が行えるのではないかと考える.
よって,本節では,refsubsec:3.1.3節の対訳句の抽出において,頻度情報を考慮した対訳句の抽出を行う.
つまり,同じ対訳句が2度以上抽出されるようにする.
さらに,抽出された対訳句を用いた自動手法による翻訳実験を行う.
par
subsection対訳句の自動抽出
頻度情報を考慮して自動抽出した日英対訳句の内訳を表refkousatu2.6,評価結果と評価例を表refkousatu2.7に示す.
par
begintable[h]
begincenter
caption頻度情報を考慮して自動抽出した日英対訳句の内訳labelkousatu2.6
vspace3mm
begintabularlrr
Hline
& 日本語 & 英語
hline
学習データ(句) & multicolumn2c397,908
単語数(語) & 1,115,809 & 852,329
異なり単語数(語) & 9,003 & 7,770
平均句長(語) & 2.8 & 2.14
hline
endtabular
endcenter
endtable
par
begintable[h]
begincenter
caption頻度情報を考慮して自動抽出した日英対訳句の評価結果と評価例labelkousatu2.7
vspace3mm
small
begintabularllll
Hline
評価 & 句数 &multicolumn2l日英対訳句例
hline
multicolumn1r○ & multicolumn1r36句 & 勝利の歓声 & victory cry
& & 彼の理論が正しい & his theory is true
hline
multicolumn1r△ & multicolumn1r19句 & 今やいっそう険悪 & more sinister
& & 私の病気 & illness as
hline
multicolumn1r× & multicolumn1r45句 & 本 & style
& & この本は彼女 & book gives a
hline
endtabular
endcenter
endtable
par
表refkousatu2.6,表refkousatu2.7より,頻度情報を考慮した自動抽出では考慮しない場合と比べて,約22倍の量の対訳句を抽出できた.
ただ,頻度情報を考慮しているだけなので,語彙的な情報量の増加はない.
さらに,特徴としては,頻度情報を考慮しない場合と比べて,平均句長はやや短かくなり,対訳句の精度はほぼ同等か向上している.
par
subsection自動評価結果
頻度情報を考慮した自動抽出を用いた自動手法をtextquotedblleft 自動手法(頻度)"と表記する.
par
自動評価結果を表refkousatu2.8に示す.
par
begintable[!h]
begincenter
caption自動評価結果(%)
vspace3.2mm
labelkousatu2.8
begintabularlrrr
Hline
自動評価手法&自動手法&自動手法(頻度)
hline
BLEU &bf 12.54 & 11.69
METEOR & bf 42.55 & 40.46
RIBES & bf 68.02 & 67.07
hline
endtabular
endcenter
endtable
par
表refkousatu2.8より,頻度情報を考慮した対訳句の自動抽出を用いた自動手法の翻訳精度は,頻度情報を考慮しない場合と比べて,
自動評価結果においてはやや劣っているという結果となった.
この結果より,原因としては,頻度が多い対訳句が必ずしも信頼性が高い対訳句ではないことや,頻度が少ない対訳句が重要な対訳句であることなどが考えられるが,詳しい原因はわからない.
よって,頻度情報として,単に出現回数を考慮するだけでは,不十分であることが分かった.
par
chapter考察labelsyo:kosatsu
section精度向上の原因分析
本研究では,対訳文と,その対訳文から手動抽出した対訳句を組み合わせた対訳データを学習データとして用いることにより,翻訳精度が向上することがわかった.
さらに,自動抽出した対訳句を用いた場合でも同様に翻訳精度が向上することがわかった.
par
この原因は,対訳句を組み合わせることにより,フレーズテーブルの翻訳確率の変化に伴い,フレーズテーブルの信頼性が向上していることが考えられる.
例えば,表ref4.32の手動手法○の例を見ると,手動手法で得られた出力文では,textquotedblleft 合図し"がtextquotedblleft signaled"に翻訳されているが,
baseline手法では,textquotedblleft 合図し"がうまく翻訳されていない.
ここで,手動手法とbaseline手法のフレーズテーブルの確認をしてみると,表ref8.1に示されるように,翻訳確率がbaseline手法で0.125,手動手法で0.311となっており,
翻訳確率の変化に伴い,フレーズテーブルの信頼性が向上していることがわかる.
par
この結果より,対訳句の学習により正しい対訳句の対応が強調されたことが翻訳精度の向上に繋がっていることがわかった.
よって,対訳データの語彙量の増加が生じない実験環境において,対訳文と対訳句を組み合わせた対訳データを学習データとして用いた統計翻訳には有効性があると考えられる.
par
begintable[!h]
begincenter
captionフレーズテーブル
label8.1
begintabularlllrrr
Hline
実験手法 & 日本語句 & 英語句 & 日英翻訳確率
hline
baseline手法 & 合図 し & signaled & 0.125
手動手法 & 合図し & signaled & 0.311
hline
endtabular
endcenter
endtable
par
newpage
par
section自動抽出と手動抽出の比較labelkousatu
自動抽出と手動抽出の対訳句の比較を行うと,抽出精度の面では手動抽出の方が優れている.しかし,手動抽出には抽出コストが大きくかかる.
そのため,場合に応じては抽出コストがほとんどかからない自動抽出を行う手法は有効であると考える.
さらに,自動抽出はプログラムのパラメータを調節することなどの工夫をしていくことにより,より多くの日英対訳句の抽出や,より高い精度の日英対訳句の抽出が可能であると考えられる.
par
section自動抽出の改良に伴う自動手法の有効性の考察
refzidou_kairyo章の調査において,自動抽出の改良を試みた.その結果,翻訳精度の向上が確認できなかった.
この原因として,閾値の変更に関しては,閾値の値を変化させても抽出精度と抽出できる対訳句数とのトレードオフが発生することにより,翻訳精度が向上しなかったと考えられる.
よって,閾値の変更は対訳句の学習により翻訳精度の向上を目指す場合には,適当な方法ではないと考えられる.
また,頻度情報の活用においては,原因として,頻度が多い対訳句が必ずしも信頼性が高い対訳句ではないことや,頻度が少ない対訳句が重要な対訳句であることなどが考えられるが,
詳しい原因はわからない.
しかし,単に出現回数を考慮するだけでは,不十分であることが分かった.
今後は,有効的な頻度情報の活用方法を模索する必要があると考える.
par
この結果より,今回は自動抽出の改良は得られなかったが,さらに,プログラムの改良を含め,改良の余地はあると考える.
par
chapterおわりにlabelsyo:matome
本研究では,対訳文に対して新たな対訳句を追加する場合である,単に対訳データの語彙が増加するような実験環境において,
翻訳精度の向上に対して,対訳句の学習により正しい対訳句の対応が強調されたことがどの程度影響しているかわからないという問題点があった.
さらに,新たな対訳句の学習には対訳句の収集にコストがかかるため,学習に用いるデータの収集の面でも問題が残る.
par
そこで,対訳データの語彙量の増加が生じない実験環境において,対訳文とその対訳文から抽出した対訳句を学習データへ追加した統計翻訳の有効性の調査を行った.
具体的には,学習に用いる対訳文から対訳句を抽出する.
そして,対訳文と対訳句を学習データへ追加した対訳データを用いて,日英統計翻訳を行い,その翻訳精度を調査する.
また,対訳句の抽出方法として,手動抽出と自動抽出の2通りの抽出方法を試し,対訳句の抽出精度やその対訳句を用いた場合の統計翻訳の翻訳精度の調査を行った.
par
その結果,自動評価と人手評価のどちらにおいても提案手法の翻訳精度は向上した.
具体的には,手動抽出した対訳句を用いた場合の手法では,対訳文のみを用いるbaselineの手法と比べて,BLEU値で約2%,METEOR値で約5%,RIBES値で約3%の向上が確認できた.
また,自動抽出した対訳句を用いた場合の手法でも,対訳文のみを用いるbaselineの手法と比べて,BLEU値で約0.5%,METEOR値で約3%,RIBES値で約1.5%の向上が確認できた.
よって,提案手法の有効性が確認することができた.
つまり,対訳データの語彙量の増加が生じない実験環境において,対訳文と対訳句を学習データへ追加した対訳データを用いた統計翻訳の有効性が示された.
par
この結果,対訳データの語彙量の増加が生じない実験環境において,対訳句の学習により正しい対訳句の対応が強調されることがわかった.
また,あらかじめ用意する対訳データとしては対訳文のみを用意すればよいため,対訳データ収集のコストを増やすことなく,翻訳精度を向上させることができる.
par
さらに,自動抽出した対訳句を用いた場合の手法の有効性の確認ができたことにより,対訳句の抽出においてもコストをかけることなく翻訳精度が向上することが確認できた.
これは,手動抽出の場合はコストが大きいという問題点に対する,解決策になると考えられる.
par
よって,本研究結果より,対訳文と,その対訳文から抽出した対訳句を組み合わせた対訳データを学習データとして用いることにより,翻訳精度が向上することがわかった.
par
chapter*謝辞
最後に,3年間に渡りご指導いただきました鳥取大学工学部知能情報工学科計算機工学講座C研究室の村田真樹教授,村上仁一准教授,徳久雅人講師そして計算機工学講座C研究室の方々に厚く御礼申し上げます.
par
また,参考にさせていただいた論文の著者の方々に対して深く感謝申し上げます.
par
beginthebibliography99
bibitempre1 Popovi Maja, Ney Hermann ``Statistical Machine Translation with a small amount of bilingual training data", 5th LREC SALTMIL Workshop on Minority Languages, 2006.
par
bibitempre2 Francis M Tyers ``Rule-based augmentation of training data in Breton-French statistical machine translation", 13th Annual Conference of the European Association for Machine Translation, pp.213-217, 2009.
par
bibitemhino 日野聡子 ``日英統計翻訳における対訳句コーパスの効果", 鳥取大学平成24年度修士論文, 2013.
par
bibitemcorpus 村上仁一, 藤波進 ``日本語と英語の対訳文対の収集と著作権の考察 ", 第一回コーパス日本語学ワークショップ, pp.119-130, 2012.
par
bibitemIBMmodel Peter F.Brown, Stephen A.Della Pietra, Vincent J.Della Pietra, Robert L.Mercer, ``The mathematics of statistical machine translation:Parameter Estimation",
Computational Linguistics, pp.137-148, 1993.
par
bibitemgiza GIZA++ : http://www.fjoch.com/GIZA++
par
bibitemmert Franz Josef Och ``Minimum Error Rate Training in Statistical Machine Translation", the 41st Annual Meeting of the Association for Computational Linguistics, pp.160-167, 2003.
par
bibitembleu Papineni Kishore, Salim Roukos, Todd Ward, Wei-Jing Zhu, ``BLEU: a method for automatic evaluation of machine translation", 40th Annual Meeting of the Association for Computational Linguistics, pp.311-318, 2002.
par
bibitemmeteor Banerjee Satanjeev, Lavie Alon, ``METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments", 43th Annual Meeting of the Association of Computational Linguistics, pp.65-72, 2005.
par
bibitemribes 平尾努, 磯崎秀樹, Kevin Duh, 須藤克仁, 塚田元, 永田昌明, ``RIBES: 順位相関に基づく翻訳の自動評価法", 言語処理学会第17年次大会発表論文集, pp.1111-1114, 2011.
par
bibitempataji 鳥バンク : http://unicorn.ike.tottori-u.ac.jp/toribank/
par
bibitemtori_ron 池原悟, 阿部さつき, 徳久雅人, 村上仁一 ``非線形な表現構造に着目した重文と複文の日英文型パターン化 ", 言語処理学会論文誌, Vol.11, No.3, pp.69-95 (2004-7)
par
bibitemmecab MeCab: Taku Kudo, Kaoru Yamamoto, Yuji Matsumoto, ``Applying Conditional Random Fields to Japanese Morphological Analysis", Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing (EMNLP-2004), pp.230-237, 2004.
par
bibitemtoke tokenizer.sed : http://www.cis.upenn.edu/ treebank/tokenizer.sed
par
bibitemsrilm Andreas Stolcke, ``SRILM - am Extensible Language Modeling Toolkit", 7th International Conference on Spoken Language Processing, pp.901-904, 2002.
par
bibitemmoses Philipp Koehn, Marcello Federico, Brooke Cowan, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst, ``Moses: Open Source Toolkit for Statistical Machine Translation", Proceedings of the ACL 2007 Demo and Poster Sessions, pp.177-180, 2007.
par
endthebibliography
par
enddocument
次へ: この文書について...
平成28年3月17日