研究課題/領域番号 |
13480086
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 北海道大学 |
研究代表者 |
原口 誠 北海道大学, 大学院・工学研究科, 教授 (40128450)
|
研究分担者 |
佐土原 健 産業技術総合研究所, 研究員 (90344168)
大久保 好章 北海道大学, 大学院・工学研究科, 助手 (40271639)
|
研究期間 (年度) |
2001 – 2003
|
研究課題ステータス |
完了 (2003年度)
|
配分額 *注記 |
5,200千円 (直接経費: 5,200千円)
2003年度: 1,900千円 (直接経費: 1,900千円)
2002年度: 1,300千円 (直接経費: 1,300千円)
2001年度: 2,000千円 (直接経費: 2,000千円)
|
キーワード | メタファー的検索 / 概念グラフの汎化 / HTML文書 / テキストコンテンツの類似性 / 概念のグラフの汎化 |
研究概要 |
テキストコンテンツに対する構造汎化手法を、HTML文書のメタファー的検索(GのようなAを探す問題)のために必要な技法に拡張し、アルゴリズムの高速化を行った。具体的には、 (1)タグとテキストコンテンツからなるHTML文書に対する構造汎化を定めるために、テキスト部分の概念グラフをノードに、HTMLタグをロールとみなしたHTML概念グラフを新たに導入し、昨年度与えた極大類比構成アルゴリズムをHTML概念グラフの極大類比を求めるものに拡張した。 (2)次に、メタファー的なHTML文書検索方式として、一つの比較的に抽象的なHTML文書を検索の目的文書Aとし、比喩的例示を与えるGとしては、複数の例示文書群を与えるとする。その前提のもとに、例示文書群の汎化でAの具体化になっているものを求めることにより、Aであって、かつ、例示文書の共通性質を持つ、最も極大なもの(極大類比)を算出する方式を策定した。極大類比に包摂されるものを検索質問「GのようなA」にヒットさせる。さらに、Aとテキスト中の語彙の包摂関係が電子化辞書の品質に大きく依存する問題点を解消するために、実際にはAと概念的に近いA'で所与の例示文書群の汎化を抑制するアルゴリズムに改良した。 (3)構造汎化の計算量の問題を克服するために、評価関数のもとに、最大評価値を持つ極大類比のみを高速に算出するアルゴリズムを実装し、その有効性を検証した。 (3)の手法を(2)に組み込んだものは、タグ数およびテキストコンテンツが50文程度のものに対しては、3秒程度で計算が終了し、比較的に小規模のHTML文書群の処理方式としては十分に有効であることを確かめた。
|