next up previous contents
Next: 文ベクトルの計算 Up: 提案手法 Previous: 提案手法の手順   目次


文の分割方法

3.1節の手順1における複数文書を文単位に分割する方法を説明する. 文書を句点ごとに分割したものを文とした場合,例えば「人口は98,891人で,面積は611.76km$^2$。」のような複数の情報を含む文が存在してしまう. このような文は,「人口は98,891人。」という人口に関する文と,「面積は611.76km$^2$。」という面積に関する文に分割されることが望ましい. よって以下の手順で文を分割し,得られた短い文を本研究では1つの文として扱う.図3.2に分割結果の例を示す.
  1. 文をKNP3.1を用いて構文解析する.
  2. 条件(a),(b)を同時に満たす文節箇所で分割する.
    1. 文節の係り先が末尾の文節番号である.
    2. 並列構造を表す<P>が付与されている.
  3. 分割された文に対しても,文を分割できなくなるまで12を行う.
  4. 分割された各文をKNPで格解析する.
  5. 出力された格解析結果のうち,係り先が末尾の文節番号である文節,もしくは末尾の文節に注目する.
  6. 注目している格解析結果に含まれる各格要素について,述語よりも前にある場合は,格要素を格要素に係る文節と統合する.
  7. 格要素と述語をまとめて文を作る.

図 3.2: 分割結果の例
\begin{figure}
\begin{center}
\begin{itembox}[l]{分割前}
流域には...
...積物の底に埋もれた。
\end{itembox}
\end{center}
\end{figure}



Subsections

2018-03-02