評価データには,「トヨタ」「宇宙」「ギリシャ」のネットワークごとにランダムで取り出した,20単語対を用いる.すなわち,合計60単語対を用いる.また,評価する際の参考データとして,各単語対を含む記事をランダムで10記事ずつ抽出したものを用いる.各単語対に対して,第章で述べた
節の手法の出力結果を優先度の上位5つまでの文字列とし,抽出した記事を参考に,○□△×の4段階の評価を人手で行う.また,優先度の式を,式
,式
,式
の3パターンの4段階評価を行う.以降,本章では式
を「頻度大」,式
を「文字長小」,式
を「割り算」と表記する.単語対を「飛行」「船長」とした場合を例として,○の評価基準と評価例を表
,□の評価基準と評価例を表
,△の評価基準と評価例を表
,×の評価基準と評価例を表
に示す.
表を○と評価した理由は,「若田光一宇宙飛行士がISSの船長となった」という意味ととれる文字列が,「飛行」「船長」の単語間の関係性を無駄なく適切に表していると判断したからである.表
を□と評価した理由は,2単語間の関係性を示すものとしては適切だが,「14日午前7時58分」という余分な部分があると判断したからである.表
を△と評価した理由は,2単語間の関係性は適切に示しているのだが,さらに関係性を分かりやすくするためには,人名等の情報がなく,不十分な部分があると判断したからである.表
を×と評価した理由は,参考データから決定した正解の情報とは違ったため,関係を示すものとしては不適切だと判断したからである.