next up previous contents
次へ: 単文コーパス 上へ: 実験データ 戻る: 実験データ   目次

英辞郎

``英辞郎"はEDP(Electronic Dictionary Project)がアップデートし続けている英和・和英データベースである.英辞郎のデータには,通常の英語辞書にない新しい語彙や複雑な言い回しも含まれている.英辞郎のデータを学習データに加えることで対訳辞書データを補完する.本研究では,不適切なデータを除去し,学習データとして用いるためにクリーニングした1,366,575文対[11]を用いる.表3にクリーニング前のデータ例を,表4に,クリーニング後の英辞郎のデータ例を示す.


表: クリーニング前の英辞郎データ例
■あなた
・bubeleh《イディッシュ》
・darling〔夫婦間や恋人同士の呼びかけ〕
・gentle reader〔作家が著作の中で読者に語りかける場合の「あなた」〕
■理解する
catch on(〜の意味を)
put the pieces together(断片的な情報などを総合して)


表: クリーニング後の英辞郎データ例
あなた $\vert\vert\vert$ bubeleh
あなた $\vert\vert\vert$ darling
あなた $\vert\vert\vert$ gentle reader
理解する $\vert\vert\vert$ catch on
理解する $\vert\vert\vert$ put the pieces together



平成23年3月3日