研究概要 |
インターネットの普及により,膨大,かつ多様な情報がネットワーク上に溢れている.このような状況において,膨大な情報の中からユーザが指定した出来事に対し,その発生から後の経過を示す一連の内容を自動的に提示する技術(続報内容の抽出)は,ユビキタス情報社会における知的アクセス基盤を提供するだけでなく,過去の事例から将来起こりうる問題を予測し,実際に問題が発生する前に対処するための知識発見の技術としても発展が期待できる. 続報内容の抽出に関する研究は,統計手法や機械学習を用いて続報を示すラベルが付与された少数から成る事例の特徴抽出を行なう方法が主流となっている.しかしこのような時系列データでは,ある特定の機関においてユーザが指定した出来事を示す事例(正の事例)数は,それ以外の事例(負の事例)数に比べ極端に少ない.従って,統計や機械学習だけを用いた手法では精度面で限界があり,多様なコンテンツを扱う現実世界において充分に対処可能な枠組を提供しているとはいえない.この問題を解決するためには意味を中心に据えた自然言語処理技術が必須となる. 本研究では,実システムとして膨大な情報の中からユーザが指定した出来事に対し,その発生から後の経過を示す一連の内容を自動的に提示する技術(続報内容の抽出)に焦点をあて,続報内容の抽出精度に役立つ言語知識を抽出する手法を提案した.具体的には,(1)続報内容の分類に必要となる分野名の誤りを自動的に修正する手法,(2)高精度で続報内容を抽出するために必要となる分野階層の自動生成,(3)話題推移の抽出に有効な言語知識の調査,(4)日本語及び英語を対象としたコンパラブルコーパスからの対訳語義の抽出と関連記事抽出の手法を提案し,各手法において関連研究との比較を含めた手法の有効性を示した.
|