next up previous contents
Next: 句点と句読点の考察 Up: 考察 Previous: リンクへの文字列付与の考察   目次

優先度の式の考察

句読点を区切りとする手法で,文字列を取得する際に用いた優先度の式について考察をする. 優先度の式は,文字列の出現頻度を重視する式,文字列の文字長が短いものを重視する式,出現頻度と文字長の割り算で優先度を求める式の3つの式を用いた.

まずは,文字長が短いものを重視した式について考察を行う. 文字長を重視した式は,全ての評価方法と評価基準で,一番低い性能であることがわかった. 原因として,抽出する文字列の短いものを重視しているので,2単語間の関係性を示す情報の量が少なくなるためと考えられる.

次に,出現頻度を重視する式と割り算で優先度を求める式について考察を行う. 出力の文字列が,2単語間の関係を示すものとして適切であるが,余分な部分がある場合や,さらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,2つの式はほぼ同等の性能であることがわかった. しかし,2単語の関係を示すものとして適切な場合を正解とする基準や,適切であるが余分な部分がある場合も正解とする基準では,僅かながら出現頻度を重視した式が性能が良いという結果となった.

さらに,2つの式は,1位正解率での値が同等なのにも関らず,5位正解率では頻度を重視した式の方が,良いという結果がでている. つまり,頻度を重視した式では,優先度の上位5つの中に正解があることが多いということである. これより,出現頻度を重視することによって,2単語の関係性を示すものとして適切な文字列が取得しやすくなると考えられる.



2016-03-17