「おかげ」「せい」「ため」での実験

クロスバリデーションでの正解率が9割以上だった類義語「おかげ」「せい」「ため」の新聞データを学習データとし，Webデータをテストデータにして実験を行った．表6.1に新聞データでのデータ数とクロスバリデーションでの正解率の結果を示す．

**表 6.1:** 「おかげ」「せい」「ため」の正解率(新聞データ)
	データ数	正解率
おかげ	4186	0.90
ため	4186	0.95
せい	4186	0.87
総数	12558	0.90

表6.2にWebデータでのデータ数と新聞データを学習データとした時の元の文章の正解率を示す．正解率が0.88という推定結果となった．この実験は誤り訂正と見なすことができ，機械の推定結果が元データの分類と異なっている場合，機械の推定のように修正することで誤り訂正を実現できる．この考え方に基づき表6.2の結果を誤り訂正として考察した．

**表 6.2:** 「おかげ」「せい」「ため」の正解率(Webデータ)
	データ数	正解率
おかげ	500	0.89
ため	500	0.85
せい	500	0.92
総数	1500	0.88

表6.3に．機械の出力と元の文の語が異なっている文の出力例を示す．出力の形式は「機械が出した答え，○か×，元の文の語，　．．．．@元の文」となっている．

**表 6.3:** 機械の出力と元の文の語が異なっている文の出力例(「おかげ」「せい」「ため」)
$\begin{table}\begin{center} \vspace{4mm} \scalebox{0.9}{ \fbox{ \begin{minip... ...��入りづらい面はあります。 \end{minipage}} } \end{center}\end{table}$

機械の出力のように訂正する場合より，元のWebの文章のほうが正しいことがほとんどであり，この実験はうまく行かなかった．

また，学習データ，テストデータを同じにしてWebデータ12,000文で実験を行い，その結果2文が機械の出力と元の文が異なっている文であったのでその例を表6.4に示す．

**表 6.4:** 学習データとテストデータを同じにした実験の機械の出力と元の文の語が異なっている文の出力例(「おかげ」「せい」「ため」)
$\begin{table}\begin{center} \vspace{4mm} \scalebox{0.9}{ \fbox{ \begin{min... ...��そのためかとも思うけど。 \end{minipage}} } \end{center}\end{table}$

元の文の語，機械の出力した語のどちらでも良いような文章なので誤り訂正ができたとは言えない．