次へ: 文長差によるフィルタリング
上へ: 文長差を用いた翻訳文の選択
戻る: 文長差を用いた翻訳文の選択
目次
単文データセットにおける文長差の調査
まず,日英の文長差がいくらであれば適切であるかを調査する.本研究で用いる単文コーパス181,988文において各文長差の文数をカウントした.結果を表4.6.3.1に示す.
表において,単語数の差は日本語の単語数を基準としている(+2→日本語の方が2単語多い).
表:
文長差の統計
| 文長差 |
文数 |
| … |
… |
| -3 |
4,400 |
| -2 |
8,308 |
| -1 |
15,027 |
| 0 |
23,711 |
| 1 |
29,694 |
| 2 |
30,464 |
| 3 |
24,974 |
| 4 |
17,150 |
| 5 |
9,885 |
| 6 |
5,339 |
| 7 |
2,682 |
| … |
… |
結果より,単文においては0〜+4の文長差が比較的多数であることが確認できた.
平成25年2月12日