研究概要 |
本研究は,WWW空間上に存在するHTML形式の表構造から言語学的な知識を自動獲得することを目的としている.従来,WWW空間上のデータを対象にしたネットサーチエンジンに代表される全文検索技術では,HTMLタグ情報を考慮していないため,表構造内の単語については,各項目間の関係が無視されていた.しかしながら,表構造内の各項目には,属性と属性値の関係が成り立つものが多数存在しており,大規模な表構造を収集すれば,言語学的な知識が抽出できると考えている. 本研究の平成13年度の実施計画目標であった「表構造から各項目の位置情報を生成する表構造解析アルゴリズムの確立と効率的な索引化手法の考案・評価」に対しては,位置情報をコンパクトなビット列で表現する手法を考案した.本手法を用いると,位置情報がコンパクトに表現できるだけでなく,表構造内において縦横の位置に存在する項目を高速に検索することが可能になった. また,本研究の平成14年度の実施計画目標は「表構造内に存在する固有名詞の意味情報を特定する表内容解析アルゴリズムの確立とその結果を用いた検索質問が有する意味的多義性を考慮したネット検索エンジンの開発」であった.これに対して,各項目の意味情報は,各項目の縦横上位下位方向に存在する項目内容(これを表内の文脈と呼ぶ)に反映されている点に着目し,教師データを用いて相互情報量により文脈間の類似性を計算し,表内容解析を行うアルゴリズムを提案した.また,応用システムとして,表内の情報を問い合わせるシステム,ホームページ内に存在する表を読み上げるシステム等を開発し,その有効性を確認した. 本研究成果は,情報処理学会の自然言語処理研究会およびデータベースシステム研究会にて口頭発表しており,情報処理学会論文誌にも投稿中である.
|