next up previous contents
次へ: Okapi-BM25 上へ: 関連研究 戻る: ブログとニュース記事の自動対応付け   目次


非文法的かつ断片化されたテキストの頑健な分類

荒牧らは電子カルテの一文章が一患者に対応しているという特性より,カルテからの患者の喫煙情報の抽出を,カルテの分類というアプローチで行った.まず,入力文章とトレーニングセットから喫煙に関する文を抽出し,類似度計算の結果より,最も類似した喫煙状況の分類へ分類した.類似度を計る際,尺度として編集距離,$ n-gram$ ベース,統語解析の3種を用いて,それぞれの確信度と入力文の統計量により,喫煙状況を左右する重要な情報となる語群を手がかりとして,適した尺度を選択している.

編集距離は,$ S_i$ を入力文章の喫煙関連文,$ S_t$ をトレーニンングセットとしての喫煙関連文,$ \vert S_s\vert$ ,$ \vert S_t\vert$ をそれぞれ$ S_s$ ,$ S_t$ の文字数として,式[*]により正規化した類似度を算出する.

$\displaystyle sim_{ED}(S_i,S_t)$ $\displaystyle =$ $\displaystyle \frac{編集距離(S_i,S_t)}{\vert S_i\vert+\vert S_t\vert}$ (2.1)

$ n-gram$ ベースでは文を,単語 $ n-gram(n=1..4)$ の単位に分解し,分解された語列間の類似度をOkapi-BM25[3]尺度を用いて計算を行う. 最終的な出力は上位k個の類似度の重みつき投票により決定する.

統語解析では依存構造上で文をn語の組み合わせとして分解した後$ n-gram$ ベースと同様の処理を行う.



平成23年4月13日