2011 Fiscal Year Annual Research Report
Webデータに対する情報検索における情報単位に関する研究
Project/Area Number |
22700248
|
Research Institution | Doshisha University |
Principal Investigator |
波多野 賢治 同志社大学, 文化情報学部, 准教授 (80314532)
|
Keywords | 検索エンジン / 情報単位 / 文書構造 / 文書間構造 |
Research Abstract |
本年度の研究における大きな目標は,昨年度の問題点であった情報単位抽出の際に要する多大な計算時間の削減を図ることにある.文書に対して情報検索を行う以上,情報単位の抽出を正確に行わない限り,検索システムが正しい結果をユーザに返すことはできない.したがって,情報単位の抽出の正確さを確保しながら高速に抽出処理を行うためには,情報単位の抽出に不要と判断できる部分では,一連の処理を行わないという方策をとる必要がある.本年度の研究ではこの方策を実現する際に,検索エンジンの現状に沿うよう,格納される検索対象文書は常に更新されるという前提に研究を行った. 本年度の研究成果としては,情報単位の抽出に不要と思われる文書部分の判定を行う際は,文書に出現する索引語のみならず新たに文書の論理構造から計算される統計量を一種のフィルタとして使用した.これにより,これら二つのフィルタの条件を満たす情報単位のみがインデックス再構築の際の対象となり,フィルタを使用しない場合に要するインデックス構築時間と比較し約4割短縮することができた.また,情報単位の抽出に不要なデータをインデックスに含めていないため,インデックスサイズ自体も約2割削減することができた.しかし,情報単位の抽出が高速化された反面,抽出された情報単位の正確性については,若干ではあるが性能が低下することも判明した.どのような場合に抽出精度が低下するかは現在調査中ではあるが,二種類のフィルタを利用する際に索引語および文書構造の重要度を利用して閾値の決定を行っているところに原因があることまではわかっている.つまり,重要度が高いデータを利用することが正確な情報単位の抽出には直接的には結びつかないことを示しているため,正確な情報単位抽出に関連の深いデータを再度洗い出し,そのデータを利用したフィルタを作成することが急務であると考えている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
情報単位は,対象となるデータによってさまざまな定義がなされるが,少なくともWeb文書における情報単位は昨年度の研究成果として示したように,文書内および文書間の二種類のつながりからクリークを発見することで実現できることが判明している.よって現時点での問題は,そうした情報単位を如何に正確に,また高速に抽出するのかという点に絞られているため,おおむね順調に進展していると評価できる.
|
Strategy for Future Research Activity |
情報単位の抽出の正確性および効率性を同時に実現することは困難であるため,今後の方針としては情報単位の正確さを維持しながら,どこまで効率化できるかという点にある.本年度の研究成果では高速性に若干偏ったためか,抽出された情報単位の正確性については若干ではあるが性能が低下することが判明した. したがって,今後は現在のフィルタリング方式である索引語および文書構造の重要度を利用した方法ではなく,正確な情報単位抽出に関連の深いデータを再度洗い出し,そのデータを利用したフィルタを作成することが研究を完遂する上では必要であると考えられる.
|
Research Products
(10 results)