Next: データベース
Up: 単文抽出とデータベース作成
Previous: 単文の条件
Contents
- CREST対訳例文100万件[3]の日本語文を形態素解析する.形態素解
析には,ALTーJAWS[4]を使用する.本語例文を形態素解析にかけた結果の一部を表1に示す.
- 日本語例文:彼女はセーターを編み上げた。
Table 1:
形態素解析結果の一部
単語 |
品詞コード |
品詞 |
標準表記 |
彼女 |
1710 |
人称代名詞 |
彼女 |
は |
7530 |
付属語副助詞 |
は |
セーター |
1100 |
一般名詞 |
セーター |
を |
7430 |
付属語格助詞 |
を |
編み上げ |
2413 |
動詞 |
編み上げ |
た |
7216 |
付属語助動詞 |
た |
。 |
0110 |
文末記号 |
。 |
- 形態素解析結果の品詞コードを用いて日本語文が,単文の条件(2.1節参
照)にあてはまるか判定する.表1の品詞コード'2413'は単語
「編み上げ」が動詞であることを表しており,単文の条件1にあてはまる
ので日本語例文は単文である.他の条件についても同様にして,形態素解析
の結果を利用して単文を抽出する.
- 抽出した単文が述部を一つ持つかCLの定義を用いて確認する.CLとは,節を
表す変数で,CLの定義は全部で230種類用意する.以下にCLの定義の一部を
示す.詳細は付録の1に掲載する.
- CL1.darou。
- CL1.kako.darou。
- CL1.suitei.kako。
- CL1.kaishi.teinei。
- CL1.teiku.darou。
- CL1.reru.teinei.kako。
- CL1.sugiru.teiru。
Jin'ichi Murakami
2006-03-11