次へ: 実験結果
上へ: 実データを用いた実験
戻る: 実データを用いた実験
目次
実験方法
3章の提案手法の性能を次のように調べる.
文書Aとして新聞,文書Bとしてブログ(または文書Aをブログとして,文書Bを新聞とする.
また,文書Aと同じ分野の文書として文書Xを設定する.)を使用し,3章の手順1から3を行う.
ただし文書Aでの頻度を3章の手順3では0回としているが,ここでは1回として
抽出する(これはLeave one out法という,「個のデータについて考える場合に,
それを個の訓練データと個の評価用データとに分割し個の訓練データを用いた学習結果で個の評価用データを評価する」という概念に基づいているからである).
ここでは頻度情報を取り出すデータには訓練データだけでなく評価用データ1個も含まれているので,新聞の頻度は0でなく1を使用する.人手による評価の方法を以下に示す.
- 通常の文で,正しく使用されているものは○と判定する.
- 鍵括弧は利用していないが,引用などにより意図的に文体を変えている箇所は△と判定する.
- 明らかな誤りは×と判定する.
用いる新聞とブログの文書は毎日新聞1991年(1年分,7171記事)と,ブログサイト「ココログ」の2009年11月1日〜7日に書かれた記事から新聞と同量抜き出したものである.
平成25年10月13日