next up previous contents
Next: 実験 Up: 提案手法2(Dice係数と類似度の積())を使用する手法 Previous: Dice係数   目次

類似度

類似度は対訳学習文とパターン原文の同一の単語の出現率である. 類似度の計算方法を式3.6に示す.
\begin{displaymath}
P_s(r)= \frac{N_{j1}}{M_{j1}} * \frac{N_{j2}}{M_{j2}} * \frac{N_{e1}}{M_{e1}} * \frac{N_{e2}}{M_{e2}}
\end{displaymath} (3.6)

$M_{j1}$;対訳学習文中の日本語単語数 $M_{j2}$;パターン原文の日本語単語数
$M_{e1}$;対訳学習文中の英語単語数 $M_{e2}$;パターン原文の英語単語数
$N_{j1}$;対訳学習文中の単語とパターン原文の単語が一致している日本語単語数
$N_{j2}$;パターン原文の単語と対訳学習文の単語が一致している日本語単語数
$N_{e1}$;対訳学習文中の単語とパターン原文の単語が一致している英語単語数
$N_{e2}$;パターン原文の単語と対訳学習文の単語が一致している英語単語数

3.3を用いた場合の類似度の例を,式3.7に示す.


表 3.3: 類似度を求めるときのデータの例
\scalebox{0.97}{
\begin{tabular}{\vert c\vert c\vert} \hline
対訳学習文(日...
...ine
パターン原文(英) & This box is made from iron\\ \hline
\end{tabular}}



\begin{displaymath}
P_S(\frac{この 箱}{this\, box})= (5/6) * (5/6) * (6/7) * (6/7)= 0.51
\end{displaymath} (3.7)

したがって上記の例で$P_3$は式3.8となる.

$\displaystyle P_3$ $\textstyle =$ $\displaystyle Dice(この箱,this box)*P_S(\frac{この 箱}{this\, box})$  
  $\textstyle =$ $\displaystyle 0.28*0.51 = 0.142$ (3.8)



2018-03-06