Next: 文ベクトルの計算
Up: 提案手法
Previous: 提案手法の手順
目次
文の分割方法
3.1節の手順1における複数文書を文単位に分割する方法を説明する.
文書を句点ごとに分割したものを文とした場合,例えば「人口は98,891人で,面積は611.76km。」のような複数の情報を含む文が存在してしまう.
このような文は,「人口は98,891人。」という人口に関する文と,「面積は611.76km。」という面積に関する文に分割されることが望ましい.
よって以下の手順で文を分割し,得られた短い文を本研究では1つの文として扱う.図3.2に分割結果の例を示す.
- 文をKNP3.1を用いて構文解析する.
- 条件(a),(b)を同時に満たす文節箇所で分割する.
- 文節の係り先が末尾の文節番号である.
- 並列構造を表す
<
P>
が付与されている.
- 分割された文に対しても,文を分割できなくなるまで1,2を行う.
- 分割された各文をKNPで格解析する.
- 出力された格解析結果のうち,係り先が末尾の文節番号である文節,もしくは末尾の文節に注目する.
- 注目している格解析結果に含まれる各格要素について,述語よりも前にある場合は,格要素を格要素に係る文節と統合する.
- 格要素と述語をまとめて文を作る.
図 3.2:
分割結果の例
|
Subsections
2018-03-02