各文節に対する実験結果を図7.3に示した。 この図では横軸は文節番号 で、縦軸は各情報で一致した漢字仮名交じり文の数を スケー ルで書いた。×は音素ー漢字変換によって生成された漢字仮名交じり 文の数、○は音素情報が一致した漢字仮名交じり文の数、△は音素 情報とアクセント句境界が一致した漢字仮名交じり文の数、□は音 節情報とアクセント句境界およびアクセント核が一致した漢字仮名 交じり文の数を示している。
この結果から、文節番号によって、各情報で一致した漢字仮名まじ り文の数に大きな差があることがわかる。なおグラフ中空白になっ ている文節は、音素ー漢字変換の出力の漢字仮名交じり文の数が多 すぎるため、処理を中止したことを示している。
情報 | 情報量 | 分散 |
アクセント句境界の位置 | 3.21 | 3.37 |
アクセント核の位置 | 1.97 | 1.62 |
アクセント情報 | 5.16 | 3.20 |
(アクセント句境界+アクセント核) |
なお文献[60]では、日本語における音節のエント ロピーは5.55bitであることが報告されている。今回、78日分の 日経新聞の記事を文節に区切って、音節のエントロピーを計算 したところ 5.67bitであった。これらの値と比較すると、アクセント情 報の持つ情報量は絶対量としては高い情報量を持っていると評 価できる。