実験では、「品詞の並びが同一の文節」を一致文節とする。 文節の分類を詳細に行うと、一致する文節が少なくなる。 一致文節が少ない状態で係り受けの一致をとると、 部分的にしか一致がとれない場合が多くなってしまう。 実験では、係り受けによる 候補の削減効果や、より多く一致を含む文を 検索するという本手法の有用性を確認することが 目的であるため、あまり詳細に文節の分類を行わない方がよい。
そこで、表1に示すような品詞分類を行う。 京大コーパスに与えられている品詞・品詞細分類の 情報をもとに分類を行い、助詞については 格助詞14種、副助詞25種、接続助詞39種、 終助詞16種の合計94種を字面で細分類する。 また、副詞は出現頻度の多い248種について 字面で分類を行う。 複合名詞は一つの名詞として扱い、他の品詞(形容詞など)はそのまま コーパスの品詞情報を利用した。
一致文節となる例を表2に示す。 表より、文節「一つは」と「車は」はともに 「名詞+は(副助詞)」という品詞ならびであるため 一致文節となる。他の文節も同様である。