next up previous contents
次へ: 共起頻度に基づく収集 上へ: 因果表現文からの収集 戻る: 収集結果   目次

評価

日本語語彙大系[9]によると,日本語の名詞は約$400,000$語,日本語の基本的な用言は約6,000語 であり,日本語の用言の表現構造は,約$14,800$パターンである. 一般に,複合動詞も追加する必要 があるので,さらに多くの語と語義が必要と言われている. しかし,収集結果によると名詞は$5,748$しかなく,日本語語彙大系に収録され た名詞に対して$80$分の$1$しかなく圧倒的に不足している.そのうち頻度1の数 は$3,512$で半数以上であるため,信頼性の確保ができない. 同様に動詞(見出し語)の数も$1,220$しかなく,基本的とさ れる$5$分の$1$しかない.頻度1のものは$609$も存在しており,そのままで は信頼性が確保できない. さらに,名詞と動詞を組み合わせた2つ組については,異なり数が$10,333$件であり,同じくパターン数 と比べて不足している.特に頻度1のものは$9,423$も存在しており,因果の後ろ 盾がある文ではあるが,このままでは統計的見解をすることができない.日本語語彙大系のパターン辞書を用い た情緒推定に対して,カバー率を同程度にするためにも ,近似解としてでも規模の拡大が必要であると考える.

平成24年3月20日