next up previous contents
次へ: 使用データ2(作例データ) 上へ: 使用データ 戻る: 使用データ   目次


使用データ1(収集データ)

収集データはウィキペディア5.1,解析済みブログコーパス(KNBコーパス)5.2より作成する.

[*]はデータ作成の一連の流れである.

図: データベース作成

手順を以下に示す.

  1. ウィキペディア・KNBコーパスおいて, 冗長な文を収集する. 冗長であるという判定基準に,表[*]と表[*]の「同義・類義な語が重複した表現」または「簡潔なものへの言い換えができる表現」を参考にしている.


    表: 同義・類義な語が重複した表現の例
    表現の例
    文意に影響しない二重の修飾 まず最初→最初
    必要以上の強調 完全に一致→一致
    1文中に同じ語が近くにある表現 スポーツをしている人や散歩をしている人がいる→スポーツや散歩をしている人がいる
    主語の単語を修飾語・補語・述語として同時に使用した表現 今日の天気はいい天気です→今日はいい天気です
      検定方法は,◯◯法を使う→検定では,◯◯法を使う


    表: 簡潔なものへの言い換えができる表現の例
    表現の例
    必要以上の漢語 存在する→ある
    冗長な文末表現 〜あるものである→〜ている
    複合語として言い換えができる表現 解決に向けた策→解決策
    曖昧な表現 以下のような例→以下の例

  2. 収集した冗長な文を人手で修正し,取り出した100文(冗長な文)とその修正文を対としたものを作成し 実験に用いるデータとする.

[*]は収集データの例である.収集した冗長な文には「冗長な文」のタグを付与し,その修正文には「修正文」のタグを付与している.

図: 収集データの例
\begin{figure}\begin{center}
\par
\begin{screen}
\begin{description}
\item[{\bf ...
...も不愉快になります。
\par
\end{description}\end{screen}
\end{center}\end{figure}

収集したデータは冗長な文と修正文をあわせて800文である. 実験に利用するのはここからランダムに取り出した400文である.



平成26年3月16日