出力された表現パターンの数を表10に示す。単文、名詞句では、 連鎖共起、離散共起(2組)の表現パターンを、重文では、連鎖共起、離散共起 (2組)、離散共起(3組)の表現パターンを出力した。
重文の出力表現数はすべてを合計しても、380表現ですべての表現を人手で調 査可能な数なので、すべての表現を人手で検討した。実際に人手で検討した重 文の表現は参考資料、出力表現 p1-4に示す。しかし、単文、名詞句の出力表 現数は膨大であり、とても人手ですべてを調査することが可能な表現数ではな い。そこで、単文、名詞句ではサンプルテストを行なうことにした。
サンプルテストは、出力表現を約5分割する位置の先頭から100表現を抜き出し、 検討の必要があると思われる表現を採用することにした。例えば、単文の連鎖 共起の場合は、サンプルデータをグループA,B,C,D,Eとした。それぞ れは表現番号1,601,1201,1801,2401から各先頭100表現である。そし て、各グループの採否を決定した。サンプルテストの結果を表6〜 9に示す。実際に人手で検討した単文、名詞句の表現は参考資料、出 力表現 p5-24に示す。連鎖型共起の結果は、頻度の高い順に表現が並んでいて、 離散型共起抽出の表現は、相互情報量の値が高い順に表現が並んでいる。
単文、重文、名詞句の含有率を表11に示す。重文のN-gramの 出力表現数は人手で調査可能な表現数であるため、出力されたすべての表現を 人手で選択した結果である。単文、名詞句の含有率はサンプルテストの含有率 の平均値である。
重文の離散共起抽出(2組)の含有率の推移を図5に示す。