next up previous contents
次へ: 都道府県名の曖昧性軽減の動作例 上へ: 都道府県名の曖昧性軽減 戻る: 都道府県名の曖昧性軽減   目次


都道府県名の曖昧性軽減のアルゴリズム

以下に,都道府県名の曖昧性軽減のアルゴリズムを示す.

まず,1つのブログ記事内の有力な都道府県名$ \tilde{r}$ を,以下の式で判定する. このとき都道府県コーパスを用いる.

$\displaystyle \tilde{r} = \mathop{\mathrm{arg max}}\limits _{r \in C} \sum^{}_{n \in N} c(r,n) $


$\displaystyle c(r,n)=\left\{ \begin{array}{ll}
1 & \mathit{if}\hspace{1.5mm}rのコーパスにnが存在 \\
0 & \mathit{otherwise} \\
\end{array} \right.$      

ここで$ C$ は都道府県名の集合,$ N$ は1つのブログ記事内の固有名詞の集合である. ここで固有名詞とは,MeCabの形態素解析において,「名詞,固有名詞,地域」および「名詞,固有名詞,一般」と判定された単語を表す. $ c(r,n)$ は固有名詞$ n$ が都道府県名$ r$ のコーパスに存在する場合に1を返し,それ以外は0を返す関数である.

次に,以下の式で,$ \tilde{r}$ を用いて都道府県名の曖昧性軽減を行う.

$\displaystyle S' = \mathop{\mathrm{\cup}}\limits _{(w,P) \in S} (w, m(P,\tilde{r})) $


$\displaystyle m(P,r)=\left\{ \begin{array}{ll}
\{r\} & \mathit{if}\hspace{1.5mm}r \in P \\
\vbox to 1em{}
P & \mathit{otherwise} \\
\end{array} \right.$      

ここで,$ S$ は手がかり語$ w$ と,都道府県名集合$ P$ の対を1つのブログ記事から集めた集合である. $ m(P,r)$ は都道府県名集合$ P$ の中に都道府県名$ r$ が存在すれば{$ r$ }を,無ければ$ P$ を返す, すなわち$ r$ によるマスク関数である. $ S'$ は,$ S$ に対して都道府県名の曖昧性を軽減したものである.

都道府県名の曖昧性軽減は,上記に示したアルゴリズムを用いて行う. まず,1つのブログ記事内の有力な都道府県名を決定することにより,ブログ記事内で主に話題となっている都道府県名が判定できる. 次に,判定した有力な都道府県名を用いて,1つの手がかり語に対して複数出力された都道府県名の曖昧性軽減を行う. 複数出力された都道府県名の中に有力な都道府県名が存在しなかった場合には,手がかり語辞書に登録されている都道府県名の方を信用し, 曖昧性軽減を行わず,複数出力されたままにしておく.



平成23年3月3日