まずは,文字長が短いものを重視した式について考察を行う. 文字長を重視した式は,全ての評価方法と評価基準で,一番低い性能であることがわかった. 原因として,抽出する文字列の短いものを重視しているので,2単語間の関係性を示す情報の量が少なくなるためと考えられる.
次に,出現頻度を重視する式と割り算で優先度を求める式について考察を行う. 出力の文字列が,2単語間の関係を示すものとして適切であるが,余分な部分がある場合や,さらに関係を分かりやすくするには不十分な部分がある場合を正解とする基準では,2つの式はほぼ同等の性能であることがわかった. しかし,2単語の関係を示すものとして適切な場合を正解とする基準や,適切であるが余分な部分がある場合も正解とする基準では,僅かながら出現頻度を重視した式が性能が良いという結果となった.
さらに,2つの式は,1位正解率での値が同等なのにも関らず,5位正解率では頻度を重視した式の方が,良いという結果がでている. つまり,頻度を重視した式では,優先度の上位5つの中に正解があることが多いということである. これより,出現頻度を重視することによって,2単語の関係性を示すものとして適切な文字列が取得しやすくなると考えられる.