next up previous contents
次へ: 教師の獲得 上へ: 実験データ 戻る: 実験データ   目次

京大コーパス

本研究の教師データ,テストデータは京大コーパス[10]から獲得する. 京大コーパスとは,新聞記事を自動解析後,人手による修正を加え, 各種言語情報を付与した品詞タグ付きコーパスである. 京大コーパスには,あらかじめ構文解析が行われており,係り先が付与されている.図3.1に京大コーパスを示す.ここで#の付いている行は,先頭の行を示しており,京大コーパスの文番号など が付与されている.EOSは文の終わりを表している.*の付いている行は,左から文節番号,数字部分が係り先の 文節番号,英数字D,P,Aが係り受け関係,並列関係,同格関係を示している. 係り受けについて,Dの左の番号は係り先の文節の番号を表しており,例では,「ロシア側は」の文節は,入力文の中で0番目に出現する文節で,3Dは3番目の分節に係ることを表している. その他の行は,形態素情報を表しており,左から,表記,読み,原型(活用しない語の場合は*), 品詞,品詞細分類,活用型,活用形を示している.
図: 京大コーパス例
\begin{figure}\begin{center}
\begin{tabular}{\vert l\vert}
\hline
\char93  S-I...
...。 * 特殊 句点 * *\\
EOS\\
\par
\hline
\end{tabular} \end{center}\end{figure}


平成25年2月12日