next up previous
次へ: HMMによるモデル化 上へ: HMMを利用した言語獲得の可能性について Investigation of language 戻る: 文法の複雑さ

対話データ

文節内文法を獲得するためのデータとして ATR対話データベース(ADD) を用いた。 ADDは、 明確な会話目的を持ったプロットを作成し、 プロットに沿った模擬対話実験から対話データを収集、 言語データベース化したものである。 収集されているデータは、 対話メディアとして電話、キーボードを用いた2つのタスクがあり、 それぞれ国際会議に対する問い合わせと 旅行会社への問い合わせを対話内容としている [7] 。 各データベースには、 形態素レベルから文・会話レベルまでのオブジェクトに関する情報、 及びオブジェクト間の関係を表す情報が付加されている。 これらの情報から 会話に関係しない記号や言い誤りの訂正などの部分を取り除いて 文節区切りと文節内の形態素並びの情報を抽出する。 データの抽出は、電話による2つの対話記録、 国際会議及び旅行代理店に対する問い合わせ (以下SET1SET2)から行なった。 それぞれのデータについての統計情報を 1(p.[*])に示す。

表 1: 対話データ
SET1
文節数 28500
パタン数 1008
平均連鎖長 2.09 形態素 / 文節
パープレキシティ 9.02
   
文節長の分布
1 12469
2 7835
3 4438
4〜 3758
瀕出文節パタン
間投詞 15$\%$
名詞+格助詞 12$\%$
感動詞 11$\%$
副詞 5$\%$
SET2
文節数 30419
パタン数 1078
平均連鎖長 2.15 形態素 / 文節
パープレキシティ 8.82
   
文節長の分布
1 12326
2 9282
3 4500
4〜 4311
瀕出文節パタン
間投詞 18$\%$
名詞+格助詞 13$\%$
副詞 6$\%$
名詞 4$\%$


1に示される通り、 2つのタスクに共通して1文節内の形態素の連鎖が 短い方に分布する傾向が見られる。 これは、間投詞・感動詞のような1形態素1文節のパタンが 多く存在するためと考えられる [9] 。 (キーボード会話では、 間投詞・感動詞があまり現れないため分布が連鎖の長い方に移動する [7] 。) 2つのタスクの特徴的な違いは、 SET1に見られる感動詞の瀕出がSET2にないことである。 この差異が文法の抽出にどのような影響を与えるかを合わせて調査する。


next up previous
次へ: HMMによるモデル化 上へ: HMMを利用した言語獲得の可能性について Investigation of language 戻る: 文法の複雑さ
Jin'ichi Murakami 平成13年10月5日