リンクに付与する文字列の選定

単語ネットワークのノード間の関係性を分かりやすくするため,リンクに単語同士の関係性を示す文字列の付与を行う. 入力を新聞データと,[*]節の図[*]の「宇宙」「探査」のような単語対データとし,出力をリンクに付与する文字列とする. 付与する文字列の選定の手法を以下に示す. 図[*]は,単語ネットワークのリンクへの文字列付与の例である.

1. 新聞データから,2単語の間の文字列(文字列Aと呼ぶ)を抽出する.
2. 2単語と文字列Aの連接したものを含み,句読点で区切られた文字列(文字列Bと呼ぶ)を抽出する.文字列Aと文字列Bの抽出例を表[*]に示す.



Table: 文字列Aと文字列Bの抽出例
単語対 文字列A 文字列B 元の文字列
「ギリシャ」「国債」 中国は財政再建に取り組むギリシャの国債を購入し 中国は財政再建に取り組むギリシャの国債を購入し、ユーロ防衛に協力する姿勢を示すなど欧州への影響力を拡大している。
「トヨタ」「水素」 自動車は トヨタ自動車は水素で動く燃料電池車を2014年度に国内で販売と発表 トヨタ自動車は水素で動く燃料電池車を2014年度に国内で販売と発表。市販は世界初となる見通し

3. 文字列Bの中で,最も優先度が高い文字列(出現頻度が高いものや,文字長が短いものを優先度が高い文字列とする.これを文字列Cと呼ぶ)を取得する.これを各文字列Aに対して行う.
4. 3において取得した文字列Cのうち,優先度が最も高い文字列を選定する.
5. 選定した文字列をリンクに付与する.

優先度の式は以下の3つのうちのいずれかを用いる.[*]式は,文字列の出現頻度が高いものを優先する式であり,[*]式は,文字列の文字長が短いものを優先する式である.[*]式は,割り算で優先度を求める式である.以降,式[*]を「頻度大」,式[*]を「文字長小」,式[*]を「割り算」と表記する.

  $\displaystyle
\displaystyle 優先度 = (頻度 * 10000) - 文字長
$ (2)
  $\displaystyle
\displaystyle 優先度 = -(文字長 * 10000) + 頻度
$ (3)
  $\displaystyle
\displaystyle 優先度 = \frac{頻度}{文字長}
$ (4)
Figure: 単語ネットワークのリンクへの文字列付与の例
\fbox{
\includegraphics[width=120mm]{link_rei2.eps}
}