研究概要 |
本年度は、前年度に引き続き、テキスト中の数値表現を活用するための基盤技術および、それを応用したテキストマイニング技術の研究を行った。今年度は、主に、開発した基盤技術を応用した「大規模テキストデータからの数値文字列マイニング」を高速化するための研究に注力した。Wikipedia、東京大学Webページを対象とし、連接文字列取得システムを実用化するため、クエリの種類に応じた場合分け、特に、数値で開始するクエリについて、「数値のみの場合」と「それ以外の場合」に場合分けを行い、追加データ構造を用意することにより、従来よりも高速に連接文字列を取得することに成功した。これにより、様々な数値範囲クエリに対しリアルタイムに反応することが可能となった。また、新たに、新聞記事,企業の業務レポート等のテキストへの本手法の適用も試みた。 並行して、このような技術の応用先として、数値データを含むテキストに対するテキストマイニングの研究を行った。具体的には、機器異常診断に際して蓄積された業務レポートを対象とした。この業務レポート中のテキストは、機器に関する様々な数値情報を含み、これに対して、レポートのクラスタリングや要約を行う手法についての研究も行った。クラスタリングや要約に際しては、数値の単位情報等を特徴量として用いることを行った。 精度評価に関しては、同義語抽出の文脈情報として数値範囲を用いる手法に関して詳細な実験を行い、適切な閾値を用いて数値範囲を用いるか否かの切り替えを行うことにより、同義語抽出の精度を向上させることができることを確認した。
|