next up previous contents
Next: 置き換えテーブルの作成 Up: 置き換えによる表現抽出 Previous: 置き換えの利用

重文・複文における置き換え

重文・複文における定型的言い回しを抽出する従来の方法でも、 置き換えは行われているが、重文・複文 に的を絞った置き換えは行われていなかった。そのため、不要な表現が多数出て きてしまい、その後の人手の作業は容易ではない。

そこで、本研究は重文・複文に的を絞った置き換えを行う。 重文・複文の構造に関係のない品詞(名詞、連体詞…)を置き換え縮退することで、 抽出される不要な表現を削減する。

また、重文・複文における定型的言い回しを抽出することは、3.2で述べたよう に離散共起抽出方法 によって可能であるが、組み合わせ表現数が増えるにつれ 離散共起抽出方法は計算量が膨大となってしまい、大規模コーパスからの 定型的言い回し抽出は困難である。

そこで、本研究は従来の離散共起抽出方法だけでなく、連鎖共起抽出方法によっ ても重文・複文の表現を抽出する。 しかし、重文・複文の表現は長い文にける離れた表現が多いため、連鎖共起抽 出方法によって発見することは困難である。 そこで、適切な置き換えを行うことで、連鎖共起抽出方法によっても重文・複文の表 現を抽出することが可能となる。

以下に置き換えにより適切に表現が抽出できる時の例を示す。

(例4)適切な置き換え
置換前:●もし/私/が/ 行っ/たら/あなた/も/来る/だろ/う。
●もし/そこ/へ/行っ/たら/みんな/が/来る/だろ/う。

連鎖共起抽出表現:「もし」(2)、「行ったら」(2)、「来るだろう」(2)

離散共起抽出表現(3組):「もし〜行ったら〜来るだろう」(2)


名詞、格助詞をγに置き換え

「私/が」、「あなた/も」、「そこ/へ」、「みんな/が」→γ




置換後:●もし/γ/ 行っ/たら/γ/来る/だろ/う。

●もし/γ/行っ/たら/γ/来る/だろ/う。

連鎖共起抽出表現:「もしγ行ったらγ来るだろう」(2)

重文・複文に関する表現:「もし〜行ったら〜来るだろう」(2)



本来上のような例文から「もし」「行ったら」「来るだろう」という断片的な 表現しか発見できず、 「もし〜行ったら〜来るだろう」という共通の重文複文に関する連鎖文字 列を発見することはできない。 しかし、このように適切な置き換えによって、離散共起抽出方法でしか発見できない 表現を連鎖共起抽出方法によっても発見することが可能である。



また、置き換えが不適切な場合の例として、置き換えが不足した時の例を示す。

(例5)不適切な置き換え(置き換え不足)
例4の例文



名詞を置き換え

「私」、「あなた」、「そこ」、「みんな」→γ




置換後:●もし/γ// 行っ/たら/γ//来る/だろ/う。

●もし/γ//行っ/たら/γ//来る/だろ/う。

連鎖共起抽出表現:「もしγ」(2)、「行ったらγ」(2)、「来るだろう」(2)

×重文・複文に関する表現:「もし〜が行ったら〜も来るだろう」
「もし〜へ行ったら〜が来るだろう」

上記の例は置き換えが不足するため、下線部の表現が異なってしまうため、 連鎖共起抽出方法では共通の連続的な文字列を発見できない。 置き換えが足らないと、「もし〜行ったら〜来るだろう」という表現 を統計的に発見できない。



以下に置き換え過ぎてしまった時の例を示す。

(例6)不適切な置き換え(置き換え過ぎ)
例4の例文

動詞以外のすべての品詞を置き換え

「もし私が」、「たら」、「あなたも」、「だろう」→γ



置換後:●γ/行っ/γ/来る/γ。
●γ/行っ/γ/来る/γ。

連鎖共起抽出表現:「γ/行っ/γ/来る/γ」(2)

△重文・複文に関する表現:「〜行っ〜来る〜」(2)

このように置き換え過ぎると、表現を統計的に発見することは可能だが、 重文・複文 における文の構造が不明になり、表現が断片的になってしまう。

このように、置き換えは目的に応じて適切に行わなければ、目的の表現を発見す ることは不可能である。




2000-04-09