今後の課題

今後の課題として,まずは高中低の選び方をもう少し厳密にやる必要があると思う.

高中低の選ぶ方法として,本実験では式[*]を使用した.

$\displaystyle 数値評価 = \frac{GOODが押された数 - BADが押された数}{時間評価}$ (1)

[*]で時間評価とは,「何時間前にコメントが投稿されたのか」を示し,「$n$時間前」の時に$n+1$として処理をしていた.

ここで例えば$n$時間で「 $GOODが押された数 - BADが押された数$」が6nであるモデルを考える. 「1時間前」の時は「 $GOODが押された数 - BADが押された数$」が6であるため数値評価は $6\div (1+1) = 3$で,この時総合評価は「中」である. 一方,「5時間前」の時には数値評価は $(6・5) \div (5+1)= 30 \div 6 = 5$で,この時の総合評価は「高」である.

この例は本来ならば、ともに1時間当たり6ずつ評価があがっているので総合評価が統一されていなければならない. しかし,現在の方法ではコメントが投稿された時間が遅いほど総合評価が高になりやすいのでその点を注意する必要があると思う.



また,本研究では入力データのサンプル数が少なく,「皇室」や「オリンピック」などのような記事に固有の語が取り出されてしまうことが多かった. そのため,よりサンプル数を増やしてより厳密な結果を求める必要があると思う.



また,本研究では主に動詞や形容詞などの自立語を中心として分析をしていったため,「が」や「と」,「ます」といった付属語が排除されていた. そのため付属語を含めた分析についても検討する必要があると思う.