next up previous contents
Next: 名詞句について Up: No Title Previous: List of Tables

まえがき

機械翻訳などの自然言語処理において、使用頻度の高い表現や定型的な言い回し などを収集した日本語共起表現辞書が必要とされている。しかし、その辞書 に登録する見出し語を、人手で収集することは困難である。そこで、使用頻度 の高い表現や定型的な言い回しを自動的に抽出する方法が考えられているが、 まだ確立されていない。これに対して、従来、N-gram統計処理を応用した連鎖 共起表現を使った手法[1]や、表現の種類毎(単文、重文、名詞句)に適切な単語置 き換えを行なって、効率よく目的の表現を抽出する方法[2]が提案され ている。

方法[2]では、原文の段階で抽出すべき、単文、重文、名詞句の文型の 種類毎に適切な置き換えを行なうことによって、効率よく目的とする表現を抽出 する。そして、N-gram統計の出力結果に対しても品詞情報を用いて、必要の ない表現の削除も行う。また、出力結果を調査しやすくするために相互情報量 を用いて言い回しを絞り込んだ。上記の手法をプログラム化し、毎日新聞 95年度の一面記事 1万文に対して適用し て、定型的な言い回しの抽出を行なった。しか し、この研究[2]では、非常に単純の表現の抽出方法しか提案されていない。特に、名詞句の場合 では、単純の表現「助詞+名詞」の定型的な言い回しのみ を抽出する方法が提案されている。この研究[2]で抽出された名詞句の置き換えテー ブルを表1に示す。そして、研究[2]で得られた定 型的な言い回しの例を図1に示す。

名詞句、特に名詞句と名詞句を「の」で結んだ「XのY」という名詞句は、日本語 でよく現れる表現である。その他にも連体詞、形容詞、形容動詞などを含まれて いる名詞句が多く現れている。そこで本研究では、名詞句に限定して名詞句の定 型的な構造を抽出することを試みる。原文段階では、 名詞句の文型に適切な置き換えを行なうことによって、データの処理を行なう。 そして、N-gram統計処理の段階では、品詞情報を用いて不要の表現を削除 し、名詞句に関係する表現を抽出した。さらに、出力結果を調査して適正な名詞 句の表現(構造)を人手で抽出する。また、選択した適正な名詞句の構造を分類して、 評価する。なお、本研究では、去年の研究[2]で抽出された「助詞 +名詞」の種類を不適性な名詞句と定義して、調べたい構造の対象外と考えれば良い。

上記の手法を対訳コーパス毎日新聞 95年度の一面記事 1万文に対して適用し て、定型的な名詞句の構造の抽出を行なった。

以下、2章では名詞句について、3章では置き換えについて、4章で実験方法と結 果について、そして、4章では実験考察について、最後に5章で結論や今後の課題 を述べる。


 
Table: 論文[2]の研究の名詞句の置き換えテーブル
  名詞句
記号
名詞
動詞
形容詞・形容動詞
副詞
連体詞
接続詞
感動詞
接辞
助動詞
格助詞(に、より、を、をば)
格助詞(その他)
副助詞
接続助詞
終助詞
準体助詞

[ ○ : 残す品詞、 − :「γ」に置き換える品詞 ]


  
Figure: 論文[2]の研究で得られた定型的な言い回しの例
\begin{figure}
\begin{center}
\fbox{
\begin{tabular}{c}
…からの参加 \\
…までの余震は\\
…を対象に\\
\end{tabular}}
\end{center}\end{figure}




2000-04-19