研究概要 |
本研究では,新聞記事を対象とした情報検索に注目し,検索質問文が表す情報内容を扱うための第一歩として,(1)質問文を構成する各単語は本来全てが曖昧さを持っているということを前提とし,それらの言語的な多義性を同時に解消する (2)解消された各単語に対し,シソーラスを知識の構造,組織化の手段として導入し,検索質問文の各語について,シソーラス構造の中から拡張の対象となる階層を自動的に抽出することで質問文の拡張を行うことを目的とする. 本年度は,上記(1)について,Hindleの類似度計算に基づく語義解消を提案し,Reuters 1996 Corpusを用いて抽出した語義知識をSENSEVAL2のタスクに適用し,その有効性の検証を行っている,また(2)については,シソーラス構造を自動的に作成するために,関連記事を抽出するための手法を提案し,TDT1を用いた実験では高精度で関連記事が抽出できることを確認した(論文1).また,シソーラスの自動構築については,大量データからの統計量を用いて分野の階層構造を自動的に生成する手法を提案した.Reuters 1996 Corpusを用いた実験により,自動生成された階層構が,人手により作成された階層構造を用いて文書を分類する場合よりも高い精度で分類できることを明らかにした(論文2).
|