そこで、本研究は重文・複文に的を絞った置き換えを行う。 重文・複文の構造に関係のない品詞(名詞、連体詞…)を置き換え縮退することで、 抽出される不要な表現を削減する。
また、重文・複文における定型的言い回しを抽出することは、3.2で述べたよう に離散共起抽出方法 によって可能であるが、組み合わせ表現数が増えるにつれ 離散共起抽出方法は計算量が膨大となってしまい、大規模コーパスからの 定型的言い回し抽出は困難である。
そこで、本研究は従来の離散共起抽出方法だけでなく、連鎖共起抽出方法によっ ても重文・複文の表現を抽出する。 しかし、重文・複文の表現は長い文にける離れた表現が多いため、連鎖共起抽 出方法によって発見することは困難である。 そこで、適切な置き換えを行うことで、連鎖共起抽出方法によっても重文・複文の表 現を抽出することが可能となる。
以下に置き換えにより適切に表現が抽出できる時の例を示す。
置換前:●もし/私/が/ 行っ/たら/あなた/も/来る/だろ/う。 |
●もし/そこ/へ/行っ/たら/みんな/が/来る/だろ/う。 |
連鎖共起抽出表現:「もし」(2)、「行ったら」(2)、「来るだろう」(2) |
離散共起抽出表現(3組):「もし〜行ったら〜来るだろう」(2) |
↓
名詞、格助詞をγに置き換え
↓
「私/が」、「あなた/も」、「そこ/へ」、「みんな/が」→γ
↓
置換後:●もし/γ/ 行っ/たら/γ/来る/だろ/う。 |
●もし/γ/行っ/たら/γ/来る/だろ/う。 |
連鎖共起抽出表現:「もしγ行ったらγ来るだろう」(2) |
重文・複文に関する表現:「もし〜行ったら〜来るだろう」(2) |
本来上のような例文から「もし」「行ったら」「来るだろう」という断片的な
表現しか発見できず、
「もし〜行ったら〜来るだろう」という共通の重文複文に関する連鎖文字
列を発見することはできない。
しかし、このように適切な置き換えによって、離散共起抽出方法でしか発見できない
表現を連鎖共起抽出方法によっても発見することが可能である。
また、置き換えが不適切な場合の例として、置き換えが不足した時の例を示す。
↓
置換後:●もし/γ/が/ 行っ/たら/γ/も/来る/だろ/う。 |
●もし/γ/へ/行っ/たら/γ/が/来る/だろ/う。 |
連鎖共起抽出表現:「もしγ」(2)、「行ったらγ」(2)、「来るだろう」(2) |
×重文・複文に関する表現:「もし〜が行ったら〜も来るだろう」 |
「もし〜へ行ったら〜が来るだろう」 |
以下に置き換え過ぎてしまった時の例を示す。
置換後:●γ/行っ/γ/来る/γ。 |
●γ/行っ/γ/来る/γ。 |
連鎖共起抽出表現:「γ/行っ/γ/来る/γ」(2) |
△重文・複文に関する表現:「〜行っ〜来る〜」(2) |
このように置き換え過ぎると、表現を統計的に発見することは可能だが、 重文・複文 における文の構造が不明になり、表現が断片的になってしまう。
このように、置き換えは目的に応じて適切に行わなければ、目的の表現を発見す ることは不可能である。