2008年10月14日から31日までに4社のブログ運営会社から発信された新着ブログ RSSを受信して入手したブログデータを使用する.絵文字が含まれている行は, 分析を行う上で不都合なので対象外とした.対象とするブログデータの総行数は 27,327,543行であった.対象とするブログテキストの一部を以下に示す.
[ |
l]ブログテキスト例
「期間が短いから、もちろん合格しなくても仕方ないんで 今回は受けることが目標だから。 受けたらどんな感じだかわかるだろうし、 自分のレベルもわかるし。 だらだらやるより短期集中でやっちゃった方がいいでしょ。 でも1日3時間以上やらないと、まぁ・・・。 」 みたいな。 思いつきでしょー、それ。 よかったらポチポチしてもらえたら嬉しいでっす |