next up previous contents
次へ: 実験と結果 上へ: 冗長な文の収集とその分析 戻る: 提案手法   目次


データ

3.3はデータ作成の一連の流れである.

図: データベース作成
3#3

まずウィキペディアと,解析済みブログコーパス(KNBコーパス)において冗長な文を正例,冗長でない文を負例として収集する. 冗長であるという判定基準には,後述する「同義・類義な語が重複した表現」または「簡潔なものへの言い換えができる表現」を用いている. 次に収集された正例と,負例を用いて「冗長性判定用データベース」を作成する. ここで収集された正例については人手で冗長でない文に修正し,それを「修正文」とする. 冗長な文とその修正後の修正文を対として収集し「冗長性修正文集合データベース」を作成する. 作成した修正文は「冗長性判定用データベース」の負例としても用いる.

3.1と表3.2には「同義・類義な語が重複した表現」と「簡潔なものへの言い換えができる表現」の例を示している. これらの表にあてはまるものを冗長な表現とし人手で判定する.

表: 同義・類義な語が重複した表現の例
表現の例
文意に影響しない二重の修飾 まず最初→最初
必要以上の強調 完全に一致→一致
1文中に同じ語が近くにある表現 スポーツをしている人や散歩をしている人がいる→スポーツや散歩をしている人がいる
主語の単語を修飾語・補語・述語として同時に使用した表現 今日の天気はいい天気です→今日はいい天気です
  検定方法は,◯◯法を使う→検定では,◯◯法を使う


表: 簡潔なものへの言い換えができる表現の例
表現の例
必要以上の漢語 存在する→ある
冗長な文末表現 〜あるものである→〜ている
複合語として言い換えができる表現 解決に向けた策→解決策
曖昧な表現 以下のような例→以下の例

3.4は冗長性判定用データベースの例である.収集してきた冗長な文には「正例」のタグを付与し,収集してきた冗長でない文には「負例」のタグを付与している.

図: 冗長性判定用データベースの例
4#4

3.5は冗長性修正文集合データベースの例である.一行目の「修正前」とタグ付けされたの文は,収集してきた冗長な文を原文で載せており, 続いて2行目の「修正後」とタグ付けされた文は,表3.1と表3.2の規則を用いて冗長でない文に修正した文を表している.

図: 冗長性修正文集合データベースの例
5#5

収集した「冗長性判定用データベース」は正例と負例をあわせて850文を,「冗長性修正文集合データベース」は冗長な文は350文であり,それを修正したものを合わせて合計700文を作成した.


next up previous contents
次へ: 実験と結果 上へ: 冗長な文の収集とその分析 戻る: 提案手法   目次
tsudou 平成24年3月14日