本研究においては、同一トピックに関する複数記事の収集手法として、次にあげる手法を提案・検討した。(1)前処理:前処理として、「同〜という表現の同の部分を元に戻す」「相対表記を絶対表記に戻す」「漢数字をローマ数字に対話的に変換する」を行い、新聞記事中で省略されている情報の補間を行う。(2)同一トピック記事の検索・収集:同一の事件、事故を扱っている記事を検索・収集するために、初めに記事を、冒頭部と本文とに分割する。次にそれぞれの部分を文節(名詞や動詞+助詞)に分割し、これを出現順も含め保持することで、文節リストを作成する。次に、冒頭部間、本文間、本文・冒頭部間の類似度を計算し、閾値以上の場合は、同一トピックの記事としてみなす。類似度の計算は、同一文節に対する編集距離および語彙毎の重みを活用する。 本手法に対し、Web上の新聞記事50件を対象とした実験を行った。結果として、人が正しいとした記事のほうが高い類似度を持つ結果となった。また、冒頭部と本文を分けた場合や“同"や相対表現を変更した場合のほうが高い精度を得られた。これらの結果から本手法で用いた方法の可能性が見受けられた。しかし、類似度の低い正解がある、すべての正解において類似度が高いわけではない、といった問題点も見受けられた。今後はこれらの点を改善していく必要がある。
|