リンクに付与する文字列の選定

単語ネットワークのノード間の関係性を分かりやすくするため，リンクに単語同士の関係性を示す文字列の付与を行う．入力を新聞データと，

[*]

節の図

[*]

の「宇宙」「探査」のような単語対データとし，出力をリンクに付与する文字列とする．付与する文字列の選定の手法を以下に示す．図

[*]

は，単語ネットワークのリンクへの文字列付与の例である．

1.

新聞データから，2単語の間の文字列(文字列Aと呼ぶ)を抽出する．

2.

2単語と文字列Aの連接したものを含み，句読点で区切られた文字列(文字列Bと呼ぶ)を抽出する．文字列Aと文字列Bの抽出例を表

[*]

に示す．

**Table:** 文字列Aと文字列Bの抽出例
単語対	文字列A	文字列B	元の文字列
「ギリシャ」「国債」	の	中国は財政再建に取り組むギリシャの国債を購入し	中国は財政再建に取り組むギリシャの国債を購入し、ユーロ防衛に協力する姿勢を示すなど欧州への影響力を拡大している。
「トヨタ」「水素」	自動車は	トヨタ自動車は水素で動く燃料電池車を２０１４年度に国内で販売と発表	トヨタ自動車は水素で動く燃料電池車を２０１４年度に国内で販売と発表。市販は世界初となる見通し

3.

文字列Bの中で，最も優先度が高い文字列(出現頻度が高いものや，文字長が短いものを優先度が高い文字列とする．これを文字列Cと呼ぶ)を取得する．これを各文字列Aに対して行う．

4.

3において取得した文字列Cのうち，優先度が最も高い文字列を選定する．

5.

選定した文字列をリンクに付与する．

優先度の式は以下の3つのうちのいずれかを用いる．式は，文字列の出現頻度が高いものを優先する式であり，式は，文字列の文字長が短いものを優先する式である．式は，割り算で優先度を求める式である．以降，式を「頻度大」，式を「文字長小」，式を「割り算」と表記する．

$\displaystyle \displaystyle 優先度 = (頻度 * 10000) - 文字長$ (2)

$\displaystyle \displaystyle 優先度 = -(文字長 * 10000) + 頻度$ (3)

$\displaystyle \displaystyle 優先度 = \frac{頻度}{文字長}$ (4)

**Figure:** 単語ネットワークのリンクへの文字列付与の例
$\fbox{ \includegraphics[width=120mm]{link_rei2.eps} }$