最大エントロピー法での推定方法

本研究では,最大エントロピー法を用いて,文章の段落推定を行うために様々な素性を用いて実験を行う.本研究で用いる素性を以下に示す.

55#55 文と文の間の箇所「?」(以下「文間箇所」)の直前の1文と直後の1文にある全単語

  • 3.3の「?」の箇所の直前の1文と直後の1文に対して,MeCabを用いることで形態素解析を行い推定した.以下に整形前の新聞記事を図3.4に,単語ごとに分け整形した文を図3.5に示す.図3.5の「文-1」は直前の1文,「文1」は直後の1文のことを示している.


    Figure 3.3: 文章例
    2#2


    Figure 3.4: 新聞記事
    56#56


    Figure 3.5: 文間箇所の直前,直後の1文にある全単語
    57#57

    3.5のように,直前の1文と直後の1文にある全単語を素性として追加する.また直前2文と直後2文,直前3文と直後3文も文章数が増えるだけで,MeCabを用いて形態素解析を行い同様に単語ごとに分ける.

58#58 文間箇所の直前の2文と直後の2文にある全単語

59#59 文間箇所の直前の3文と直後の3文にある全単語

60#60 文間箇所の直前の1文と直後の1文の文頭の単語

  • 文頭の単語の情報を素性として推定した.接続詞など段落の分割に大きく影響を及ぼす品詞などを文頭の素性することで,推定精度の向上に繋がると推測した.以下に整形前の新聞記事を図3.6に,整形を行った文頭の素性を図3.7に示す.図3.7の「文頭-1」は直前の1文の文頭,「文頭1」は直後の1文の文頭のことを示している.


    Figure 3.6: 新聞記事
    61#61


    Figure 3.7: 文頭の単語
    62#62

63#63 文間箇所の直前,直後の文中の同単語の出現数

  • 2文章に続けて同じ単語が出現する場合,その2つの文は同じ段落内である可能性が高いと考えられる.以下に同単語が出現する例文を図3.8に示す.


    Figure 3.8: 同単語例文
    64#64

    3.8より「クラスター爆弾」という固有名詞が2文に続けて出現しており,例文の2文章は同段落内である.

    素性として追加する際は,文-1と文1の名詞の一致数を調べ,3種類の情報を追加する.1つ目の情報は,一致数が1個以上の場合1,2個以上の場合2,3個以上の場合3,5個以上の場合5.2つ目の情報は,一致数が1個以下の場合1,2個以下の場合2,3個以下の場合3,5個以下の場合5.3つ目の情報は,一致数が0個の場合0,1個の場合1,2個の場合2,3個の場合3,4,5個の場合5,5個より多い場合はmany.この3種類の情報を追加することで同単語の出現回数を素性として追加する.

65#65 段落情報

  • 文間箇所以外の段落の分割情報を,段落箇所の場合1,段落箇所ではない場合0とすることで,素性として実験を行った.例えば,素性に直前の1文と直後の1文の全単語と段落情報を用いて実験を行うとき,以下に直前,直後の1文の段落情報の例文を図3.9に示す.


    Figure 3.9: 段落情報例文1
    66#66


    このとき「文-1」が図3.3の「?」の直前の文,「文1」が図3.3の「?」の直後の文とする.文-1の文頭が段落であるので1,文1の文末が段落ではないので0とすることで段落情報の素性として扱う.

    また,素性に直前の2文と直後の2文の全単語と段落情報を用いて実験を行うとき,以下に直前,直後の2文の段落情報の例文を図3.10に示す.


    Figure 3.10: 段落情報例文2
    67#67

    このとき,先ほどの文-1の文頭の段落情報,文1の文末の段落情情報に加えて,文-2の文頭の段落情報,文2の文末の段落情報を段落情報の素性として扱う.ここでは,文-2の文頭は段落箇所ではないので0,文2の文末は段落箇所ではないので0である.素性に直前の3文と直後の3文の全単語と段落情報の場合も同様に文-3の文頭の段落情報,文3の文末の段落情報を加える.

上記の素性をそれぞれ組み合わして複数のパターンで段落分割の推定を行う.また本研究は段落情報のない文章に対して段落の推定を行い段落の付与を行うことを目標であるが,65#65段落情報の追加は実際の文章の,文間箇所前後の段落の正解の分割,非分割の情報を素性としている.文間箇所の前後の正解の段落情報は,本来扱うことのできない情報である.そのため素性の追加での実験では,推定結果の数値を確認するために行うが,考察では65#65段落情報の追加については取り扱わない.