next up previous contents
次へ: 収集結果(クリーニング後) 上へ: 原因文の収集結果 戻る: 収集結果(クリーニング前)   目次

原因文のクリーニングの様子

本研究で使用する原因文を抽出するために, パターン検索プログラムを使用した. 本プログラムは,入力文が本辞書の結合価パターンに適合すると, 「文ID(本コーパスの文ID)」 」,「入力文」,そして,「パターンに付随する情報」を 出力する.一方,結合価パターンに適合しない場合は「no result」 を出力する.

クリーニング対象となるのは,「パターンに付随する情報」内で, 情緒属性「なし」を出力する文,そして, 「no result」を出力する文である.例を図4.2に示す.

図 4.2: パターン検索プログラム実行結果
\begin{figure}\centering
%\footnotesize
{\tt
\begin{tabular}{l}
\hline
1~~I...
...)'']}\\ %, ''preid:13336'']
11~=====\\
\hline
\end{tabular} }
\end{figure}

3行目の下線部の「なし」より,結合価パターン「出来る」には, 情緒属性が付与されていないことが分かる.よって,2行目の原因文は クリーニング対象である. 5行目の入力文は,結合価パターンに適合しないことを示しているため, クリーニング対象である. 8行目の入力文は,9行目以降に情緒属性が示されているので, クリーニング対象外である.



平成23年3月9日