next up previous contents
次へ: 入力文入手の具体的方法 上へ: 研究対象 戻る: 文型パターン辞書の収録内容の例   目次

入力文の決定基準

まず,研究する上で入力文をどのような基準で得るかを設定しなければ,入力文 を得ることができない.ここで,前述の文型パターン辞書の説明を踏襲した上で, 入力文の設定基準を説明する.まず,入力文等は全て文型パターン辞書から得る 訳だが,辞書に収録されたパターン全て(22万件)を入力文として実験することだ できない.以下にその理由を示す.

  1. 人手では労力と時間が掛かり過ぎる.

  2. プログラムにより全パターンを入力文としても,コンピュータへの負荷が強過ぎる上,やはり時間が掛かり過ぎる.

  3. そもそも全パターンを入力文としたら,検索用の英文パターンが残っていない.

以上のことが問題となる.そこで,まずは何件のパターンを検索の実験に使えば 良いかを決めて,次に検索条件がいくつかを決めた上で,入力文の数を逆算する.

ここで,知っているべきことは,時間的な問題と計算時の有効桁数の関係上,翻 訳や検索の分野では実験対象の数が1000件というのがひとつの限界であることで ある.このことより,本研究では,検索条件が5つであることを 考慮する.又,各検索条件に対し, 評価や集計の行い易さから,検索するパターン数は10文とする(現時点,50件).さらに,入力が重文であるか複 文であるかにより実験結果が大きく異なることを予想し,入力文は重文,複文の 2種類を用意したい(50×2= 100).つまり,入力文の数は1000を100で割り,重 文,複文についてそれぞれ10文を用意すれば良いことになる.

次に,どの様な条件で入力文を選ぶかである.これは,全てのパターンを選ぶこ とができないことから,「表現が一般的な文」を入力文の対象に留めておくこと が考えられる.次に,入力文の真理項は検索条件に用いることから,実験に用い る真理項が全て付与された文を選ぶ必要がある.又,一部のパターンの真理項に は「0」や「-」が付与されてはいるが,この真理項では検索条件が無指定になっ てしまうため,この2つの真理項が付与されたものは除外する.以上のことから, 次に入力文の具体的な入手方法を挙げる.



平成18年3月20日