2002 Fiscal Year Annual Research Report
メタファー的検索の定式化とそのHTML文書検索への応用
Project/Area Number |
13480086
|
Research Institution | Hokkaido University |
Principal Investigator |
原口 誠 北海道大学, 大学院・工学研究科, 教授 (40128450)
|
Co-Investigator(Kenkyū-buntansha) |
佐土原 健 北海道大学, 大学院・工学研究科, 研究員
大久保 好章 北海道大学, 大学院・工学研究科, 助手 (40271639)
|
Keywords | メタファー的検索 / 概念のグラフの汎化 / HTML文書 / テキストコンテンツの類似性 |
Research Abstract |
本研究では、検索対象であるHTML文書Dを演繹データベースとみなすことにより、内包述語で記述されたゴールGをDが持つビューや事実から推論できるときに、DはGを満たすと定義し、他のD'でGを同様に説明できるときに限り、D'はGに照らしてDと類似していると定める。こうした文書間の強類似性は、タグ付き文書としての構造的類似性と、テキストコンテンツ間の意味的類似性の両者を扱うことができる。本年度では、特に、テキストコンテンツの類似性に特化した研究を行った。 テキストコンテンツを索引語の集合とみなす立場では、演繹データベースに文ベクトル間の類似性測度を内包述語化して扱う従来研究と同じになることから、各テキストが持つ言語構造をできるだけ反映できる類似性判定手法を与えた。具体的には、(1)まず、形態素解析と格解析の結果導出できる概念グラフの時系列データとして、各テキストコンテンツを表現し、(2)テキスト間の類似性を、共通したより抽象的なイベントの系列(一般には部分列)として捉え、(3)過度の抽象化を抑制し、計算論的に高速にしかも意味的にもある程度の妥当性を保証させる目的で、汎化限界と呼ばれるパラメータを与え、単調性の性質に基づいて有効な枝刈り探索を実現するボトムアップ探索アルゴリズムを設計・実装・評価した。 その結果、25個程度のグラフ系列からなるテキストの場合は1分以内に、また、50個程度の概念グラフ系列からなるテキストの場合は10分程度で、共通な汎化イベント列を算出できることを確認した。
|
Research Products
(6 results)
-
[Publications] M.Haraguchi, Y.Kudoh: "Some Criterions for Selecting the Best Data Abstractions""Progress in Discovery Science", Springer LNAI Series of State-of-the-Art Surveys. 2281. 156-167 (2002)
-
[Publications] 角田篤泰, 原口誠: "法的推論と類似性-対話と議論の観点から"人工知能学会誌. Vol.17, No.1. 14-21 (2002)
-
[Publications] M.Narita, M.Haraguchi, Y.Okubo: "Data Abstractions for Numerical Attributes in Data Mining"Springer LNCS, Proc. of the 3rd Int'l Conf. on Intelligent Data Engineering and Automated Learning. 2412. 35-42 (2002)
-
[Publications] M.Haraguchi, S.Nakano, M.Yoshioka: "Discovery of Maximal Analogies between Stories"Springer LNCS, Proc. of the 5th Int'l Conf. on Discovery Science. 2534. 324-331 (2002)
-
[Publications] 大久保 好章, 森田 展博, 原口 誠: "類似性の観察に基づく知識ベースの内包的エラー修正法"人工知能学会誌. 18. 1-4 (2003)
-
[Publications] Y.Kudo, M.Haraguchi, Y.Okubo: "Data Abstractions for Decision Tree Induction,"Theoretical Computer Science. 292(2). 387-416 (2003)