1. | 新聞データから,2単語の間の文字列(文字列Aと呼ぶ)を抽出する.
|
2. | 2単語と文字列Aの連接したものを含み,句読点で区切られた文字列(文字列Bと呼ぶ)を抽出する.文字列Aと文字列Bの抽出例を表に示す.
Table:
文字列Aと文字列Bの抽出例
単語対 |
文字列A |
文字列B |
元の文字列 |
「ギリシャ」「国債」 |
の |
中国は財政再建に取り組むギリシャの国債を購入し |
中国は財政再建に取り組むギリシャの国債を購入し、ユーロ防衛に協力する姿勢を示すなど欧州への影響力を拡大している。 |
「トヨタ」「水素」 |
自動車は |
トヨタ自動車は水素で動く燃料電池車を2014年度に国内で販売と発表 |
トヨタ自動車は水素で動く燃料電池車を2014年度に国内で販売と発表。市販は世界初となる見通し |
|
3. | 文字列Bの中で,最も優先度が高い文字列(出現頻度が高いものや,文字長が短いものを優先度が高い文字列とする.これを文字列Cと呼ぶ)を取得する.これを各文字列Aに対して行う.
|
4. | 3において取得した文字列Cのうち,優先度が最も高い文字列を選定する.
|
5. | 選定した文字列をリンクに付与する.
|