next up previous contents
次へ: 冗長度に基づく手法 上へ: 冗長な文章の自動検出 戻る: 提案手法   目次


機械学習に基づく手法

冗長な文章と,冗長な文章を修正した文章の2分類のデータに対して, 入力データが冗長な文章であるか,否かの 2値分類を機械学習で行い, 冗長な文章を自動検出する. 機械学習法には,サポートベクターマシン法を用いる. 機械学習の素性には以下を用いる.

○素性番号1(単語)
文内の出現単語とその品詞.形態素解析器ChaSenを用いて単語の情報を取得する.複数の品詞の種類がある単語を区別するため,各単語の出現形に品詞の情報を組み合わせて用いる素性である.「。」や「、」も含む.素性の例は,「名詞:日本」や「助詞:に」,「句点:。」である.
○素性番号2(品詞)
文内の出現品詞.素性の例は「名詞」「動詞」である.
○素性番号3(冗長度)
次式でもとめた冗長度のランク.

$\displaystyle 冗長度x = \frac{N}{V}[V:単語の異なり数,N:延べ単語数]$ (4.1)

最小は1で値が大きくなるほど冗長と考える. 文ごとに素性の重なりができるように,冗長度$ x$ を0.1ごとに5段階にランク分けして用いる.
ランク1 1.0≦$ x$ <1.1
ランク2 1.1≦$ x$ <1.2
ランク3 1.2≦$ x$ <1.3
ランク4 1.3≦$ x$ <1.4
ランク5 1.4≦$ x$

○素性番号4(2単語連続)
文内に出現する2単語連続.文内に出現する単語を2単語ごとにつなげた素性である.
○素性番号5(2単語連続の品詞連続)
文内に出現する2単語連続の品詞連続.素性番号4を品詞で行った素性である.
○素性番号6(句点の数)
文内に出現する句点の数.
○素性番号7(読点の数)
文内に出現する読点の数.
○素性番号8(文長)
文内の文字数(句読点もカウントする).文ごとに素性の重なりができるように, 文長の値を10ごとに区切って素性を作成する.例えば,文字数49の場合「文長:40」,文字数50の場合「文長:50」という素性とする.

次に入力文に対して,実際に付与される素性を大まかに示す.

入力文:「問題は、チャンスはいつ転がり込むかわからないということ。チャンスは突然
にやってくる。」

素性番号1:付与素性例
名詞+問題,係助詞+は,記号+読点,名詞+チャンス,‥
素性番号2:付与素性例
出現品詞+名詞,出現品詞+動詞,出現品詞+格助詞,出現品詞+記号,‥
素性番号3:付与素性例
冗長度+ランク1
素性番号4:付与素性例
2単語連続+問題→は,2単語連続+は→読点,2単語連続+読点→チャンス,‥
素性番号5:付与素性例
2品詞連続+名詞→助詞,2品詞連続+助詞→記号,2品詞連続+記号→名詞,‥
素性番号6:付与素性例
読点+1
素性番号7:付与素性例
句点+2
素性番号8:付与素性例
文長+40
上記の付与素性の例では,``+''の前の表現は素性の種類を示す記号であり,``+''の後ろの表現はその素性が持つ情報である. また以下のように接頭語を付与している.

学習データでの10分割クロスバリデーションでの性能が 高い場合の素性の組み合わせを用いる. 一つの素性のみを用いた推定をすべての素性で行い, 性能が高かった素性を選ぶ. その素性と,残りの素性の一つを用いた推定を, 残りの素性のすべての素性で行い, 性能が高かった素性の組み合わせを選ぶ.上記を 繰り返し行い,性能がそれ以上が上がらなくなった場合の 素性の組み合わせを,テストデータでの推定に用いる.



平成26年3月16日