next up previous contents
Next: 付録A 文章作成支援 Up: my_ronbun Previous: 今後の課題   目次


おわりに

本研究では,先行研究の単語単位の情報抽出では正確に理解できなかった情報を改善するために,関連する複数の文書から重要な情報を文単位で抽出し表に整理する手法を提案した.

提案手法では,文書に含まれる文を意味を崩さない範囲で短い文に分割し,これを単語ベクトルを基にしたベクトルで表現した. そして,得られたベクトルをx-means法でクラスタリングし,文書ごとに表に整理して表示した.

スマートフォンの新製品ニュース記事30点を複数文書とした場合に生成された表の列のうち,無作為に抽出した5列の適合率の平均は0.91,再現率の平均は0.64,F値の平均は0.73であった. また,重要度の高い上位5列の適合率の平均は0.99,再現率の平均は0.81,F値の平均は0.89であった. いずれの場合も適合率に比べ再現率が低い傾向にあった. 再現率が低くなるのは,文の字面の違いから生じる文ベクトルの違いにより,これらの文が異なるクラスタに割り当てられることが原因と考えられる.

これらの文が同じクラスタに含まれるようにするには,文ベクトルの計算の際に文の情報をよく表す単語ほど重みを大きくしたり,文の構造も考慮することで,文ベクトルをより文の情報を表すようにする必要がある.

また,先行手法によって得られた情報と提案手法によって得られた情報のどちらがより理解しやすいかを比較した結果,先行研究に比べ提案手法の方がより情報を正確に理解できるという結果となった. しかし,提案手法の中で行う文の分割の際に行う格解析での解析の誤りによって不自然な文が生成されることがある.重要度の高い上位5列に含まれる147文のうち8文がこのような不自然な文であった.このような不自然な文は理解しづらいため,文の分割方法を見直し,不自然な文が生成されないようにする必要があると考えられる.



Subsections

2018-03-02