next up previous contents
Next: パターン抽出についての考察 Up: パターン抽出への応用 Previous: 応用方法

新聞記事のパターン抽出

提案した手法を新聞記事に適用し、 パターン抽出能力を調査する。 前述の京大コーパス中に含まれる係り受けパターン を調べるため、京大コーパス2万文 を入力文とし実験を行う。 実験により得られたパターンの例を表4に示す。 表中のNは名詞を表わし、/ は文節区切りを表わす。 また、得られた各パターンの係り受け関係を図に示す。

実験の結果、 2万パターンを越える係り受けパターン 得ることができた。件数が多い表現は 2〜4文節で構成されるパターン(連鎖型表現) が主体であった。 これらは基本的に新聞のどの記事に 使われる表現である。件数の少な パターンは、「同日午前六時九分ごろ、 震度1の地震があった」や 「〜でX年Y月,△△さんが殺害された事件で」 のように特定の内容の 記事に使われる表現であることが多かった。 また他の文節を越えて係るような パターン(離散型表現)も抽出することができた。




2002-03-06