next up previous contents
次へ: 実験 上へ: 実験の様子 戻る: 実験の様子   目次

手順

手順1:
コーパスを分割する

コーパスを8分割し,そのうち1つをテストデータ, 他を学習データとする.

手順2:
IOB2タグをIOE2タグに変換する.存在物タグ部分の変換例を表4.1に示す.


表: タグ変換の例
単語 変換前 変換後    
名古屋 O O    
O O    
O O    
B I    
I I    
I I    
I I    
I E    
O O    
ドクター B I    
イエロー I E    
O O    
撮影 O O    
O O    
まし O O    
O O    
O O    

手順3:
学習データの素性を作成

学習データに4.1.2節で述べた素性を作成する. 入力文「名古屋駅でN700系とドクターイエローを撮影しました。」 の存在物の抽出実験時の例を図4.1に示す.

図: 学習データの例
\begin{figure}\begin{center}
\begin{tabular}{l} \hline
0 O NXT:CLS:O NXT:駅 pos:...
...T:EOS pos:記号-句点 ne:O DP:nil\\
\hline
\end{tabular}
\end{center}\end{figure}

手順4:
SVMに学習データを学習させる.

手順5:
テストデータの素性を作成

テストデータに4.1.2節で述べた素性を元に作成する. ただし次のクラスがX,I,O,および,Eだけのものをそれぞれ作成する.

入力文「名古屋駅でN700系とドクターイエローを撮影しました。」の存在物の抽出実験時の例を 図4.2に示す.

図: テストデータ抽出した存在物の1つずつに注目し,その存在物ごとに, 対応する場所を検出するタスクとする.の例(次のクラスがXの場合)
\begin{figure}\begin{center}
\begin{tabular}{l} \hline
0 O NXT:CLS:X NXT:駅 pos:...
...T:EOS pos:記号-句点 ne:O DP:nil\\
\hline
\end{tabular}
\end{center}\end{figure}

手順6:
文末から文頭の順に推定を行う.

推定の例を表4.2に示す.品詞は紙面の都合上,省略して記す.

存在物を抽出する場合を例に説明する. 文末から推定を行うので,まず,単語「。」を推定する. 「。」の品詞は記号であるためSVMは存在物でないと判断し,「。」のタグを「O」と推定する. 次に,「。」の文頭側の単語「た」を推定する. 「た」の次の推定タグの部分には, 「た」の文末側の単語「。」の推定結果「O」が付与される. 「た」の品詞は助動詞であり次の単語は「EOS(End Of Sentense)」であるため存在物でないと判断し, 「た」のタグを「O」と推定する. 次は「た」の文末側「まし」を推定する. このような順でSVMは推定を繰り返す.


表: タグの推定の例(存在物の抽出)
単語 素性 推定結果
次の単語の
推定タグ
次の単語 品詞 固有表現タグ 係り先
名古屋 O 名詞 B-LOCATION nil O
O 名詞 I-LOCATION nil O
I 助詞 O で撮影 O
I 記号 O nil I
I 名詞 O nil I
I 名詞 O nil I
E 名詞 O nil I
O 名詞 O nil E
I ドクター 助詞 O とドクター O
ドクター E イエロー 名詞 O nil I
イエロー O 名詞 O nil E
O 撮影 助詞 O を撮影 O
撮影 O 名詞 O nil O
O まし 動詞 O nil O
まし O 助動詞 O nil O
O 助動詞 O nil O
X EOS 記号 O nil O

手順7:
IOE2タグをIOB2タグに変換する. タグをBまたはIと推定したものが存在物/場所を抽出した箇所となる. 表4.2の例では「N700系」と「ドクターイエロー」が存在物として抽出されている.


next up previous contents
次へ: 実験 上へ: 実験の様子 戻る: 実験の様子   目次
平成26年3月5日