研究概要 |
本研究は,WWW空間上に存在するHTML形式の表構造から言語学的な知識を自動獲得することを目的としている.従来,WWW空間上のデータを対象にしたネットサーチエンジンに代表される全文検索技術では,HTMLタグ情報を考慮していないため,表構造内の単語については,各項目間の関係が無視されていた.しかしながら,表構造内の各項目には,属性と属性値の関係が成り立つものが多数存在しており,大規模な表構造を収集すれば,言語学的な知識が抽出できると考えている. そこで,上記の目的を実現するため,本研究の実施計画として,1年目には,「表構造から各項目の位置情報を生成する表構造解析アルゴリズムの確立と効率的な索引化手法の考案・評価」を計画していた. 位置情報の表現方法に関しては,領域分割のセグメンテーション法を応用し,位置情報をコンパクトなビット列で表現する手法を考案した.本手法を用いると,位置情報がコンパクトに表現できるだけでなく,表構造内において縦横の位置に存在する項目を高速に検索することが可能になる.また,単純な表構造だけでなく,COLSPANやROWSPANが使用された複雑な表構造にも対応可能である.更に,WWW空間上の表構造は,ブラウザーでの表示形式の関係から,横には短いが,縦には長い構造を持つ.特に,組織表のように大規模な表構造に対しては,位置情報を表すビット列が非常に長くなるが,本手法では,表構造を階層的に分割管理することにより,その問題点を解決している.本手法により作成した位置情報を研究代表者が以前に考案したPaCB-treeと呼ばれる索引に格納することで,より高速な検索を可能にした. 本研究成果は,情報処理学会の自然言語処理研究会およびデータベースシステム研究会にて既に口頭発表しているが,研究成果をまとめ,情報処理学会論文誌に投稿する予定である.
|