本研究はYahoo!ニュースのコメント欄を利用して賛成を得やすい文章の特徴の発見を目的とする.賛成した人数とコメント時刻の情報を使用し,同じ記事に対する2つのコメントのどちらが賛成を得やすい文章かを機械学習を用いて推定させる.自動分類のみならず,なぜ自動分類できたかの理由を素性分析の技術を利用し,賛成を得やすい文章にどのような特徴があるかを分析する.この分析は賛成を得やすい文章の作成につながると考えている.
本研究の主な主張点を以下に整理する.
- 本研究ではME,SVM,BERTの機械学習を利用して実験を行った結果,BERT>ME>SVMの順で性能が高くなった.一番性能が良かったBERTの正解率は0.7506となり,一番低いSVMは0.6734となった.
- 機械学習での素性分析を行った結果,賛成を得やすい素性として「うーん」,「予防」,「現場」などが得られた.しかし,これらの単語が要因で賛成を得やすい文章になっているとは考えにくい.逆に,賛成を得にくい素性として得られた「バカ」,「幼稚」などは賛成を得にくい素性だと考えることができる.
- 文字数の素性分析の結果,賛成を得やすい文章は100文字や200文字より大きい文字数の文章が良いとされた.これは賛成を得やすい文章にはコメントの説明にある程度の文字数が必要だと考えることができる.
本論文の構成は以下の通りである.
第2章ではこれまでの関連する研究を説明する.
第3章では本研究における,賛成を得やすい文章の判定方法と判定に利用する技術を説明する.
第4章では賛成を得やすい文章の自動判定とその評価を行う.
第5章では考察を行い,効果的な利用方法を考察する.
第6章ではまとめを行う.