統計は、以下のものを対象に行う。
対象文:新聞記事対訳コーパス(10,000文)
これは、様々な日本語の新聞から記事を集め、翻訳家によって英訳文
を作成したもので、
記事内容は「政治」や「経済」から「読者投稿」まで広く含む。
対象名詞:日本語基本名詞(1,081語)
対象とする名詞は、2章で用いた「計算機用日本語基本名詞辞書IPAL」
に収録されてい
る日本語の基本名詞1,081語に限る。
なお、統計をとる際、「日本」と「日本人」のよう
にIPALの辞書で別の
単語として登録されている名詞は個別にカウントするが、「外国」
は登録されているが「外国人」は登録されていない、という
ような場合は、「外国人」は
「外国」の中に含める。
統計をとった結果は図3のようになった。対象とした1,081語の
総出現回数は19,238回で、最も出現頻度が高いのは「問題」の424回。
以下、「会社」の384回、「社長」の376回と続き、出現頻度の
低い名詞ほど数が多くなっている。
図3 IPAL名詞の出現回数の分布