next up previous contents
次へ: モデル化実験 上へ: 品詞列を入力とした文節内文法の獲得 戻る: 文法の複雑さ   目次

対話データ

文節内文法を獲得するためのデータとして、ATR対話データベース(ADD) (3.3.1節参照)の中から電話による2つの対話記録、国際会議及び旅行 代理店に対する問い合わせ(以下SET1SET2)を使用した。なお、 これらのデータベースには、形態素レベルから文・会話レベルまでのオブジェ クトに関する情報、及びオブジェクト間の関係を表す情報が付加されているが、 これらの情報から会話に関係しない記号や言い誤りの訂正などの部分を取り除 いて、文節区切りと文節内の形態素並びの情報を抽出した。それぞれのデータ についての統計情報を9.1に示す。


表 9.1: 対話データ
(a) SET1
文節数 28500
品詞列の種類の数 1008
平均連鎖長 2.09 形態素 / 文節
パープレキシティ 9.02
   
文節長の分布
1 12469
2 7835
3 4438
4〜 3758
品詞列の種類
間投詞 15$\%$
名詞+格助詞 12$\%$
感動詞 11$\%$
副詞 5$\%$






(b) SET2
文節数 30419
品詞列の種類の数 1078
平均連鎖長 2.15 形態素 / 文節
パープレキシティ 8.82
   
文節長の分布
1 12326
2 9282
3 4500
4〜 4311
品詞列の種類
間投詞 18$\%$
名詞+格助詞 13$\%$
副詞 6$\%$
名詞 4$\%$

なお、9.1から、2つのタスクとも1文節内が短い形態素の 連鎖が多いことが分かる。これは、間投詞・感動詞のような1形態素1文節のパ タンが多く存在するためと考えられる [102]。なお、キーボード会話 では、間投詞・感動詞があまり現れないため分布が連鎖の長い方に移動する [11]。また、2つのタスクの特徴的な違いは、SET1に見られる 感動詞の瀕出がSET2には見られない。



Subsections
next up previous contents
次へ: モデル化実験 上へ: 品詞列を入力とした文節内文法の獲得 戻る: 文法の複雑さ   目次
Jin'ichi Murakami 平成13年1月5日