next up previous contents
Next: 単語単位の情報抽出との比較についての考察 Up: 考察 Previous: 考察   目次


情報抽出についての考察

5.2節の表5.5から,無作為に抽出した5列の適合率の平均は0.91,再現率の平均は0.64,F値の平均は0.73であった. また,5.2節の表5.6から,重要度の高い上位5列の適合率の平均は0.99,再現率の平均は0.81,F値の平均は0.89であった. いずれの場合も適合率に比べ再現率が低い傾向にあった. この原因としては,内容が関連する文が正しく同じクラスタに割り当てられないことが考えられる. 「メインカメラは約1640万画素」と「約1650万画素+約1310万画素のデュアルカメラを搭載」のように,「カメラの画素数」という共通の内容を表す文同士であっても,含まれる単語が大きく異なる場合は,3.2.1節の方法で文ベクトルを求めると,文ベクトル同士の違いが大きくなる. 文ベクトルの違いにより,これらの文が異なるクラスタに割り当てられることで,再現率が低い値となってしまう.

これらの文が同じクラスタに含まれるようにするには,文ベクトルの計算方法を見直する必要がある. 提案手法では文中の品詞が名詞で,品詞分類1が代名詞,数,非自立,副詞可能でない単語の単語ベクトルを用いて文ベクトルを計算しているが,これらの単語の中には文の持つ情報をよく表す単語もあれば,そうでない単語もある. 文の持つ情報をよく表す単語ほど重みを大きくしたうえで,文ベクトルを計算することで,文の情報をより表した文ベクトルが得られると考えられる.

また,「ボディカラーは、オーロラブラックを用意する」という文の「オーロラブラック」という単語は色の種類を表しているが,この文を形態素解析すると「オーロラ」と「ブラック」という2つの単語に分かれてしまうため,「オーロラ」という色とは関係ない要素が文ベクトルに含まれてしまう. このような単語を正しく形態素解析するには,より多くの新語に対応したシステム辞書を用いる必要があると考えられる.



2018-03-02