図3.3はデータ作成の一連の流れである.
まずウィキペディアと,解析済みブログコーパス(KNBコーパス)において冗長な文を正例,冗長でない文を負例として収集する. 冗長であるという判定基準には,後述する「同義・類義な語が重複した表現」または「簡潔なものへの言い換えができる表現」を用いている. 次に収集された正例と,負例を用いて「冗長性判定用データベース」を作成する. ここで収集された正例については人手で冗長でない文に修正し,それを「修正文」とする. 冗長な文とその修正後の修正文を対として収集し「冗長性修正文集合データベース」を作成する. 作成した修正文は「冗長性判定用データベース」の負例としても用いる.
表3.1と表3.2には「同義・類義な語が重複した表現」と「簡潔なものへの言い換えができる表現」の例を示している.
これらの表にあてはまるものを冗長な表現とし人手で判定する.
表現の例 | 例 |
文意に影響しない二重の修飾 | まず最初→最初 |
必要以上の強調 | 完全に一致→一致 |
1文中に同じ語が近くにある表現 | スポーツをしている人や散歩をしている人がいる→スポーツや散歩をしている人がいる |
主語の単語を修飾語・補語・述語として同時に使用した表現 | 今日の天気はいい天気です→今日はいい天気です |
検定方法は,◯◯法を使う→検定では,◯◯法を使う |
表現の例 | 例 |
必要以上の漢語 | 存在する→ある |
冗長な文末表現 | 〜あるものである→〜ている |
複合語として言い換えができる表現 | 解決に向けた策→解決策 |
曖昧な表現 | 以下のような例→以下の例 |
図3.4は冗長性判定用データベースの例である.収集してきた冗長な文には「正例」のタグを付与し,収集してきた冗長でない文には「負例」のタグを付与している.
図3.5は冗長性修正文集合データベースの例である.一行目の「修正前」とタグ付けされたの文は,収集してきた冗長な文を原文で載せており, 続いて2行目の「修正後」とタグ付けされた文は,表3.1と表3.2の規則を用いて冗長でない文に修正した文を表している.
収集した「冗長性判定用データベース」は正例と負例をあわせて850文を,「冗長性修正文集合データベース」は冗長な文は350文であり,それを修正したものを合わせて合計700文を作成した.