次へ: 中国語結合価パターンの作成結果
上へ: 日中結合価パターンの部分試作
戻る: 日本語語彙大系の結合価パターン
目次
本研究では,日中機械翻訳における結合価パターン方式の効果を評価した
い.しかし,実験用中国語結合価パターン辞書が存在しないので,予めに,人手
で作成する.作成する200個の結合価パターンは中国語結合価パターン辞書とし
て,使用する.作成方法を以下のように示す.
まず,日中対訳文を参考し,日本語結合価パターンに対応する中国語結合パター
ンを作成する.次に,作成した日中結合価パターン対を使用して,参考した日中対訳文を
用いて,クローズテストを行う.クローズテストの上に,さらに,対応する中国語結合価
パターンを補正する.具体的な作成手順を,以下に示す.
- 日本語結合価パターンの使用頻度調査
日英対訳コーパス(100万件)の中から,日本語単文27万件[3](以下「単
文集」とする)を抽出する.単文集をパターンパーサ[6]にかけて,日本語語彙大系[2]の結合価パターン辞書と照合し,使用されている結合価パターンを調べる.
さらに,使用頻度を統計する.
- 対象とする日本語結合価パターンの選択
使用頻度が高い日本語結合価パターン(上位200件)を選択する.
- 中国語訳語の付与
上記で選択された各日本語結合価パターンに対して,適合する日本文を任意で1文選択し,
対応する中国語訳文を付与する.
- 中国語結合価パターンを作成
上記3.で得られた日中対訳文を参考に,2.で選択した日本語結合価パターンに対応する中国語結合価パターンを作成する.
- 作成したパターンにクローズテストする
作成した中国語結合価パターンに対して,3.で使用した日中対訳文を入力文として,クローズテストを行う.
- 補正
クローズテストの結果により,中国語結合価パターンを補正する.
平成18年4月11日