next up previous contents
Next: 含有率からの考察 Up: 実験結果と考察 Previous: 得られた定型的な言い回し

表現パターンの含有率

出力された表現パターンの数を表10に示す。単文、名詞句では、 連鎖共起、離散共起(2組)の表現パターンを、重文では、連鎖共起、離散共起 (2組)、離散共起(3組)の表現パターンを出力した。

重文の出力表現数はすべてを合計しても、380表現ですべての表現を人手で調 査可能な数なので、すべての表現を人手で検討した。実際に人手で検討した重 文の表現は参考資料、出力表現 p1-4に示す。しかし、単文、名詞句の出力表 現数は膨大であり、とても人手ですべてを調査することが可能な表現数ではな い。そこで、単文、名詞句ではサンプルテストを行なうことにした。


 
表 10: 表現パターンの出力表現数
  連鎖共起 離散共起(2組) 離散共起(3組)
単文 2,888 8,728
重文 60 199 121
名詞句 6,765 48,284

サンプルテストは、出力表現を約5分割する位置の先頭から100表現を抜き出し、 検討の必要があると思われる表現を採用することにした。例えば、単文の連鎖 共起の場合は、サンプルデータをグループA,B,C,D,Eとした。それぞ れは表現番号1,601,1201,1801,2401から各先頭100表現である。そし て、各グループの採否を決定した。サンプルテストの結果を表69に示す。実際に人手で検討した単文、名詞句の表現は参考資料、出 力表現 p5-24に示す。連鎖型共起の結果は、頻度の高い順に表現が並んでいて、 離散型共起抽出の表現は、相互情報量の値が高い順に表現が並んでいる。

69から以下のことがわかる。

単文、重文、名詞句の含有率を表11に示す。重文のN-gramの 出力表現数は人手で調査可能な表現数であるため、出力されたすべての表現を 人手で選択した結果である。単文、名詞句の含有率はサンプルテストの含有率 の平均値である。


 
表 11: 採用表現の含有率
  合計出力表現数 含有率
単文 11,616 100%
重文 380 50.5%
名詞句 55,049 87.2%

重文の離散共起抽出(2組)の含有率の推移を図5に示す。


  
図 5: 重文・離散共起抽出(2組)の含有率の推移
13#13


  
図 6: 単文・連鎖共起抽出のサンプルテスト結果
14#14


  
図 7: 単文・離散共起抽出(2組)のサンプルテスト結果
14#14


  
図 8: 名詞句・連鎖共起抽出のサンプルテスト結果
15#15


  
図 9: 名詞句・離散共起抽出(2組)のサンプルテスト結果
16#16


next up previous contents
Next: 含有率からの考察 Up: 実験結果と考察 Previous: 得られた定型的な言い回し

MatobaKazuyuki 平成11年4月15日