next up previous contents
次へ: 中国語結合価パターンの作成結果 上へ: 日中結合価パターンの部分試作 戻る: 日本語語彙大系の結合価パターン   目次

中国語結合価パターンの作成方法

本研究では,日中機械翻訳における結合価パターン方式の効果を評価した い.しかし,実験用中国語結合価パターン辞書が存在しないので,予めに,人手 で作成する.作成する200個の結合価パターンは中国語結合価パターン辞書とし て,使用する.作成方法を以下のように示す.

まず,日中対訳文を参考し,日本語結合価パターンに対応する中国語結合パター ンを作成する.次に,作成した日中結合価パターン対を使用して,参考した日中対訳文を 用いて,クローズテストを行う.クローズテストの上に,さらに,対応する中国語結合価 パターンを補正する.具体的な作成手順を,以下に示す.

  1. 日本語結合価パターンの使用頻度調査
    日英対訳コーパス(100万件)の中から,日本語単文27万件[3](以下「単 文集」とする)を抽出する.単文集をパターンパーサ[6]にかけて,日本語語彙大系[2]の結合価パターン辞書と照合し,使用されている結合価パターンを調べる. さらに,使用頻度を統計する.
  2. 対象とする日本語結合価パターンの選択
    使用頻度が高い日本語結合価パターン(上位200件)を選択する.
  3. 中国語訳語の付与
    上記で選択された各日本語結合価パターンに対して,適合する日本文を任意で1文選択し, 対応する中国語訳文を付与する.
  4. 中国語結合価パターンを作成
    上記3.で得られた日中対訳文を参考に,2.で選択した日本語結合価パターンに対応する中国語結合価パターンを作成する.
  5. 作成したパターンにクローズテストする
    作成した中国語結合価パターンに対して,3.で使用した日中対訳文を入力文として,クローズテストを行う.
  6. 補正
    クローズテストの結果により,中国語結合価パターンを補正する.


平成18年4月11日