next up previous
次へ: まとめ 上へ: 考察 戻る: -gramの次数

正解率


表 2: 実験結果(単語区切りの記号の異なる例)
人間による形態素解析結果 1位候補
日本橋%大伝馬$\vert$町%郵便$\vert$ 日本橋%大伝馬$\vert$町+郵便$\vert$
日本+経済+新聞%長瀬+販売$\vert$ 日本%経済+新聞%長瀬+販売$\vert$
能代%国道+維持+出張$\vert$ 能代%国道+維持%出張$\vert$
萩原+カイロプラクティック 萩原%カイロプラクティック
白峰$\vert$村%公民$\vert$館%事務$\vert$ 白峰$\vert$村+公民$\vert$館%事務$\vert$
八百松$\vert$ 八百松+亭
飯坂$\vert$新+会館 飯坂+新%会館
美瑛$\vert$川%砂利+砕石%販売+協業+組合 美瑛$\vert$川%砂利%砕石+販売%協業+組合
浜田$\vert$屋%食料$\vert$$\vert$ 浜田$\vert$屋+食料$\vert$$\vert$
富山$\vert$県%鍼灸+マッサ$\vert$ージ$\vert$$\vert$ 富山$\vert$県%鍼灸%マッサ$\vert$ージ$\vert$$\vert$
富士宮%ホワイト%テニス+クラブ 富士宮%ホワイト+テニス+クラブ
部落%解放+同盟%鹿児島$\vert$県%連合$\vert$ 部落%解放+同盟%鹿児島$\vert$県+連合$\vert$


表 3: 実験結果(単語区切りの場所が異なる例)
人間による形態素解析結果 1位候補
神結+酒造 神%結%酒造
神緑+薬局 神%緑%薬局
紳士服$\vert$の%高村 紳士$\vert$$\vert$の%高村
諏訪山+公園%管理+事務$\vert$ 諏訪$\vert$山+公園%管理+事務$\vert$
杉の沢 $\vert$の+沢
世海 世%海
瀬古勝+製菓$\vert$ 瀬古%勝+製菓$\vert$
瀬川%米穀+酒類$\vert$ 瀬川%米穀+酒$\vert$$\vert$
栖来$\vert$ 栖%来%寺

本実験では、人間によって与えられた形態素解析結果と完全に一致する候補を 正解として計算した。しかし、アクセント句境界と単語境界は特に曖昧である。 そのため、正解と見なせる候補を誤りとしている例も多い。そのため、全探索 法において$6$-gramを使用した実験結果において、単語区切りの場所が同じで 種類が異なる件数を調査した。この数は793件あった。この例を表 2に示す。これらを正解にすると 1位正解率は91%になる。

また、単語区切りの場所が違うものは944件あった。この例を表3 に示す。この結果をみると、人間による形態素解析結果が誤っていると思われ る例もある。これらの例を除くと実際の正解率はかなり高いと思われる。



平成15年9月30日