人間による形態素解析結果 | 1位候補 |
日本橋%大伝馬町%郵便局 | 日本橋%大伝馬町+郵便局 |
日本+経済+新聞%長瀬+販売所 | 日本%経済+新聞%長瀬+販売所 |
能代%国道+維持+出張所 | 能代%国道+維持%出張所 |
萩原+カイロプラクティック | 萩原%カイロプラクティック |
白峰村%公民館%事務所 | 白峰村+公民館%事務所 |
八百松亭 | 八百松+亭 |
飯坂新+会館 | 飯坂+新%会館 |
美瑛川%砂利+砕石%販売+協業+組合 | 美瑛川%砂利%砕石+販売%協業+組合 |
浜田屋%食料品店 | 浜田屋+食料品店 |
富山県%鍼灸+マッサージ師会 | 富山県%鍼灸%マッサージ師会 |
富士宮%ホワイト%テニス+クラブ | 富士宮%ホワイト+テニス+クラブ |
部落%解放+同盟%鹿児島県%連合会 | 部落%解放+同盟%鹿児島県+連合会 |
人間による形態素解析結果 | 1位候補 |
神結+酒造 | 神%結%酒造 |
神緑+薬局 | 神%緑%薬局 |
紳士服の%高村 | 紳士服の%高村 |
諏訪山+公園%管理+事務所 | 諏訪山+公園%管理+事務所 |
杉の沢 | 杉の+沢 |
世海 | 世%海 |
瀬古勝+製菓舗 | 瀬古%勝+製菓舗 |
瀬川%米穀+酒類店 | 瀬川%米穀+酒類店 |
栖来寺 | 栖%来%寺 |
本実験では、人間によって与えられた形態素解析結果と完全に一致する候補を 正解として計算した。しかし、アクセント句境界と単語境界は特に曖昧である。 そのため、正解と見なせる候補を誤りとしている例も多い。そのため、全探索 法において-gramを使用した実験結果において、単語区切りの場所が同じで 種類が異なる件数を調査した。この数は793件あった。この例を表 2に示す。これらを正解にすると 1位正解率は91%になる。
また、単語区切りの場所が違うものは944件あった。この例を表3 に示す。この結果をみると、人間による形態素解析結果が誤っていると思われ る例もある。これらの例を除くと実際の正解率はかなり高いと思われる。