next up previous
次へ: 文法の複雑さ 上へ: 文節データについて 戻る: 文節データについて

文節の定義

計算機による日本語の処理では、 日本語の一般的特徴 (内心性、句と句の依存性、非成層性)から、 文の構成単位を単語の形態的機能による結合体としての 文節とする橋本文法の考え方が広くとり入れられている。 本研究では、 最初に HMMによる 日本語対話文の文節内における形態素の品詞連鎖のモデル化を行なう。 ここで述べる文節とは、 (接頭辞、接尾辞の付加を含む)自立語で構成される自立部と 後続する付属語の連鎖で構成される意味的なまとまりを指す。

$\langle$文節$\rangle$ $\longrightarrow$ $\langle$自立部$\rangle$ 

$\langle$文節$\rangle$ $\longrightarrow$ $\langle$文節$\rangle$ $\langle$付属語$\rangle$
$\langle$自立部$\rangle$ $\longrightarrow$ (接頭辞) $\langle$自立語$\rangle$ (接尾辞).

実際の対話文では、 必ずしも明確な意味的解析を 行なうことができない文節も多く見られる。 しかし、これらは、例えば、慣用的表現を一つの付属語と解釈して、 より明確な意味的解釈を持つ文節に包括することで解消できる。 (「参加 料 について な ん です けど」の「について」を 格助詞とすることで全体を一つの文節とする。) このような考え方で文節をより一般化した拡張文節の文節内文法は、 文章や音声の認識を目的として 有限状態オートマトン等で記述されている。 [1] [6] 本研究では、 このような拡張文節に対してモデル化を行ない、 文節内文法を抽出する。

文節内の形態素の分類として 次に示される24の品詞を用いている。

形容詞 名詞 サ変名詞 代名詞 数詞 副詞
連体詞 接続詞 感動詞 助動詞 副助詞 接続助詞
格助詞 終助詞 接尾辞 接頭辞 補助動詞 固有名詞
形容名詞 本動詞 間投詞 準体助詞 並列助詞 係助詞



Jin'ichi Murakami 平成13年10月5日