統計によって実際の文章の中での名詞の出現頻度を探り、
出現頻度を考慮にいれた訳語選択について検討する。
データベースには新聞記事の対訳コーパス10,000文を用いる。
これは様々な日本語の新聞から記事を集
め、翻訳家によって英訳文を作成したもので、記事内容は「政治」や
「経済」から「読者投稿」まで広く含む。
また、対象とする名詞は2章で用いたIPALの辞書に収
録されている日本語基本名詞1,081語に限る。
統計をとった結果は図2のようになった。 1,081語の総出現回数は19,238回で、 最も出現頻度が高いのは「問題」の424回。以下、出現頻度の 低い名詞ほど数が多くなっている。
表2 意味属性の語義識別能力とその例
見出し語 | 意味属性 | 英訳語 | ||
訳し分け可能 | いなか | [村落] | 都会に対して | :country |
55% | [郷里] | 故郷 | :home | |
絞り込み可能 | 木 | [樹木] | 樹木 | :tree |
24% | [樹木] | 灌木 | :shrub | |
[材木] | 材木 | :wood | ||
[材木] | 製材した | :lumber | ||
[材木] | 丸太 | :log | ||
場合により | あわれ | [同情] | 哀れみ | :pity |
訳し分け可能 | [趣き] | |||
8% | [悲しみ] | 悲しみ | :sadness | |
[趣き] | ||||
訳し分け不可能 | 牙 | [牙] | 象などの | :tusk |
13% | [牙] | 犬おおかみの | :fang |
図2 IPAL名詞の出現回数の分布