次へ: 冗長度に基づく手法
上へ: 冗長な文章の自動検出
戻る: 提案手法
目次
機械学習に基づく手法
冗長な文章と,冗長な文章を修正した文章の2分類のデータに対して,
入力データが冗長な文章であるか,否かの
2値分類を機械学習で行い,
冗長な文章を自動検出する.
機械学習法には,サポートベクターマシン法を用いる.
機械学習の素性には以下を用いる.
- ○素性番号1(単語)
- 文内の出現単語とその品詞.形態素解析器ChaSenを用いて単語の情報を取得する.複数の品詞の種類がある単語を区別するため,各単語の出現形に品詞の情報を組み合わせて用いる素性である.「。」や「、」も含む.素性の例は,「名詞:日本」や「助詞:に」,「句点:。」である.
- ○素性番号2(品詞)
- 文内の出現品詞.素性の例は「名詞」「動詞」である.
- ○素性番号3(冗長度)
- 次式でもとめた冗長度のランク.
|
(4.1) |
最小は1で値が大きくなるほど冗長と考える.
文ごとに素性の重なりができるように,冗長度
を0.1ごとに5段階にランク分けして用いる.
ランク1 |
1.0≦
<1.1 |
ランク2 |
1.1≦
<1.2 |
ランク3 |
1.2≦
<1.3 |
ランク4 |
1.3≦
<1.4 |
ランク5 |
1.4≦
|
- ○素性番号4(2単語連続)
- 文内に出現する2単語連続.文内に出現する単語を2単語ごとにつなげた素性である.
- ○素性番号5(2単語連続の品詞連続)
- 文内に出現する2単語連続の品詞連続.素性番号4を品詞で行った素性である.
- ○素性番号6(句点の数)
- 文内に出現する句点の数.
- ○素性番号7(読点の数)
- 文内に出現する読点の数.
- ○素性番号8(文長)
- 文内の文字数(句読点もカウントする).文ごとに素性の重なりができるように,
文長の値を10ごとに区切って素性を作成する.例えば,文字数49の場合「文長:40」,文字数50の場合「文長:50」という素性とする.
次に入力文に対して,実際に付与される素性を大まかに示す.
入力文:「問題は、チャンスはいつ転がり込むかわからないということ。チャンスは突然
にやってくる。」
- 素性番号1:付与素性例
- 名詞+問題,係助詞+は,記号+読点,名詞+チャンス,‥
- 素性番号2:付与素性例
- 出現品詞+名詞,出現品詞+動詞,出現品詞+格助詞,出現品詞+記号,‥
- 素性番号3:付与素性例
- 冗長度+ランク1
- 素性番号4:付与素性例
- 2単語連続+問題→は,2単語連続+は→読点,2単語連続+読点→チャンス,‥
- 素性番号5:付与素性例
- 2品詞連続+名詞→助詞,2品詞連続+助詞→記号,2品詞連続+記号→名詞,‥
- 素性番号6:付与素性例
- 読点+1
- 素性番号7:付与素性例
- 句点+2
- 素性番号8:付与素性例
- 文長+40
上記の付与素性の例では,``+''の前の表現は素性の種類を示す記号であり,``+''の後ろの表現はその素性が持つ情報である.
また以下のように接頭語を付与している.
- 単語素性はその単語の品詞が接頭語に付与される(例「名詞+問題」)
- 品詞素性は接頭語に「出現品詞」が付与される(例「出現品詞+名詞」)
- 冗長度素性は接頭語に「冗長度」が付与される(例「冗長度+ランク1」)
- 素性は接頭語に「2単語連続」が付与される(例「2単語連続+問題→は」)
- 2品詞連続素性は接頭語に「2品詞連続」が付与される(例「2単語連続+問題→は」)
- 読点素性は接頭語に「読点」が付与される(例「読点+1」)
- 句点素性は接頭語に「句点」が付与される(例「句点+2」)
- 文長素性は接頭語に「文長」が付与される(例「文長+40」)
学習データでの10分割クロスバリデーションでの性能が
高い場合の素性の組み合わせを用いる.
一つの素性のみを用いた推定をすべての素性で行い,
性能が高かった素性を選ぶ.
その素性と,残りの素性の一つを用いた推定を,
残りの素性のすべての素性で行い,
性能が高かった素性の組み合わせを選ぶ.上記を
繰り返し行い,性能がそれ以上が上がらなくなった場合の
素性の組み合わせを,テストデータでの推定に用いる.
平成26年3月16日