next up previous contents
Next: まとめ Up: パターン抽出への応用 Previous: 新聞記事のパターン抽出

パターン抽出についての考察

2〜4文節で構成される連鎖型表現は、 N-gram統計の方法[2]でも容易に抽出することができる。 しかし、N-gramでの離散型表現の抽出は、表現の単位と みなせない断片的な文字列が多数抽出されるため、 文型として不適切な表現が増大するという問題がある。

本手法では、係り受けの一致した表現だけを 抽出するため、不適切な表現を抑えることができる。 また、離れた文節間で係り受けを構成するような 大きな文型パターンを抽出できた。 N-gramとの比較は行っていないが、 N-gramよりも離散型表現の抽出に 強いと考えられる。


 
Table 4: パターン抽出結果の例
番号 パターン 件数 パターン例
1 NはNのN 2,682 第一は/経済社会の/創造
      昨年は/九時間減の/千九百四時間
      政界は/激動の/時代
2 NのNはN 2,268 やみ行為の/対象は/燃料
      都心の/気温は/三・六度
      ワイン造りの/ポイントは/二点
3 NはNのNだ(判定) 1,454 事業計画は/妥協の/産物である
      理由は/零細小売店の/保護だ
      容疑者は/五十三歳の/銀行員だった
4 NにNはない/なかった 412 事実に/変りは/ない
      他に/外傷は/なかった
      小林さんに/けがは/なかった
5 NのNを〜するNがある 107 ハイジャック防止策の/再点検を/
      する/必要が/ある
      情報公開の/徹底を/図る/
      必要が/ある
6 〜ごろ、NのNがある 25 三日/午後/一時/九分ごろ、
      震度3の/地震が/あった
      同日/午前/五時/五十八分ごろ、
      震度1の/地震が/あった


1. NはNのN

\includegraphics[scale=1.5,keepaspectratio]{pat_00.eps}







2. NのNはN

\includegraphics[scale=1.5,keepaspectratio]{pat_01.eps}

3. NはNのNだ(判定)

\includegraphics[scale=1.5,keepaspectratio]{pat_02.eps}




4. NにNはない/なかった

\includegraphics[scale=1.5,keepaspectratio]{pat_03.eps}

5. NのNを〜するNがある

\includegraphics[scale=1.5,keepaspectratio]{pat_04.eps}







6. 〜ごろ、NのNがある

\includegraphics[scale=1.5,keepaspectratio]{pat_05.eps}


next up previous contents
Next: まとめ Up: パターン抽出への応用 Previous: 新聞記事のパターン抽出

2002-03-06