2〜4文節で構成される連鎖型表現は、 N-gram統計の方法[2]でも容易に抽出することができる。 しかし、N-gramでの離散型表現の抽出は、表現の単位と みなせない断片的な文字列が多数抽出されるため、 文型として不適切な表現が増大するという問題がある。
本手法では、係り受けの一致した表現だけを 抽出するため、不適切な表現を抑えることができる。 また、離れた文節間で係り受けを構成するような 大きな文型パターンを抽出できた。 N-gramとの比較は行っていないが、 N-gramよりも離散型表現の抽出に 強いと考えられる。
番号 | パターン | 件数 | パターン例 |
1 | NはNのN | 2,682 | 第一は/経済社会の/創造 |
昨年は/九時間減の/千九百四時間 | |||
政界は/激動の/時代 | |||
2 | NのNはN | 2,268 | やみ行為の/対象は/燃料 |
都心の/気温は/三・六度 | |||
ワイン造りの/ポイントは/二点 | |||
3 | NはNのNだ(判定) | 1,454 | 事業計画は/妥協の/産物である |
理由は/零細小売店の/保護だ | |||
容疑者は/五十三歳の/銀行員だった | |||
4 | NにNはない/なかった | 412 | 事実に/変りは/ない |
他に/外傷は/なかった | |||
小林さんに/けがは/なかった | |||
5 | NのNを〜するNがある | 107 | ハイジャック防止策の/再点検を/ |
する/必要が/ある | |||
情報公開の/徹底を/図る/ | |||
必要が/ある | |||
6 | 〜ごろ、NのNがある | 25 | 三日/午後/一時/九分ごろ、 |
震度3の/地震が/あった | |||
同日/午前/五時/五十八分ごろ、 | |||
震度1の/地震が/あった |
1. NはNのN
2. NのNはN
3. NはNのNだ(判定)
4. NにNはない/なかった
5. NのNを〜するNがある
6. 〜ごろ、NのNがある