• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

極大類比による文書データの汎化とその利用

Research Project

Project/Area Number 16300039
Research InstitutionHokkaido University

Principal Investigator

原口 誠  北海道大学, 大学院・情報科学研究科, 教授 (40128450)

Co-Investigator(Kenkyū-buntansha) 田中 譲  北海道大学, 大学院・情報科学研究科, 教授 (60002309)
吉岡 真治  北海道大学, 大学院・情報科学研究科, 助教授 (40290879)
角田 篤泰  名古屋大学, 大学院・法学研究科, 助教授 (80292001)
大久保 好章  北海道大学, 大学院・情報科学研究科, 助手 (40271639)
Keywords極大類比 / 文書構造 / 類似性 / 物語の構造解析 / コーパス / 特異値分解 / トピック・文脈解析
Research Abstract

本研究の最終目標は、文化的背景ないし目的を共有する人々が、類似していると考える文書群に共通なストーリー構造を抽出し、抽出された構造をスクリプト的に用いることにより、より直感的で人々の共感を得やすい文書を生成するための基盤技法を確立することにある。この目的のために、本年度は昨年度与えた物語の構造解析手法の改良を行い、解析結果に基づいて極大類比(イベント列間の構造類比)を求めるアルゴリズムの洗練化を行った。具体的には下記のとおりである。
イベント列としての物語を、主題を中心にして分割するために、テキストセグメンテーションにより、連続したイベントからなる複数のイベントブロックに分割する。ブロック毎に話題を表す語彙(中心語彙群)を共起性に基づくグラフにおけるクリークとして抽出し、話題は共起に関して密に結合された語彙集合として定める。次に、話題を結びつける機能を持つ語彙もしくはイベントを特定する。昨年度実装した方式は手がかかり語によってアドホックに決める方式であったが、本年度は、キーグラフ同様に、異なる中心語彙群との相関により話題に基づく支持度を求め、複数の話題に共通に支持される度合いを語彙が持つ話題結合度として定めた。話題結合度の高い語彙は、文脈的な語彙として捉えることが可能であり、そうした結合度の高い語彙をより多く含むイベントを複数のブロックを繋ぐイベントとして抽出する。
上記の手法で同定された物語構造(イベントブロック-中心語彙群-ブロック結合構造)を保存する構造写像を高速に算出するためのアルゴリズムを、イベントブロックの分割統治と過度の抽象化を抑制する制御規則を持つものとして策定した。高速化のポイントは、分割統治の効果と過度の抽象化の制御規則が固有に持つ枝刈規則に加え、中心語彙群と結合構造の保存性スコアーを新たに導入し、そのスコアー下限値(事前に与える)に基づく枝刈規則を新たに与える点にある。これら3種類の探索枝刈の実装により、一般には指数オーダの処理が必要になる構造類比の算出手法の高速化に対する新たな道を切り開いた。

  • Research Products

    (7 results)

All 2006 2005

All Journal Article (6 results) Book (1 results)

  • [Journal Article] A Method for Pinpoint Clustering of Web Pages with Pseudo-Clique Search2006

    • Author(s)
      M.Haraguchi, Y.Okubo
    • Journal Title

      Federation over the Web, International Workshop(Springer-LNAI) 3847

      Pages: 59-78

  • [Journal Article] Finding Significant Web Pages with Lower Ranks by Pseudo-Clique Search2005

    • Author(s)
      Y.Okubo, M.Haraguchi
    • Journal Title

      Proceedings of the 8th International Conference on Discovery Science(Springer-LNAI) 3735

      Pages: 346-353

  • [Journal Article] An Algorithm for Mining Implicit Itemset Pairs Based on Differences of Correlations2005

    • Author(s)
      T.Taniguchi, M.Haraguchi
    • Journal Title

      Proceedings of the 8th International Conference on Discovery Science(Springer-LNAI) 3735

      Pages: 227-240

  • [Journal Article] Discovery of Hidden Correlations in a Local Transaction Database Based on Differences of Correlations2005

    • Author(s)
      T.Taniguchi, M.Haraguchi, Y.Okubo
    • Journal Title

      4th International Conference on Machin Learning and Data Mining in Pattern Recognition(Springer-LNAI) 3587

      Pages: 537-548

  • [Journal Article] Towards Constructing Story Databases Using Maximal Analogies Between Stories2005

    • Author(s)
      M.Yoshioka, M.Haraguchi, A.Mizoe
    • Journal Title

      In Intuitive Human Interfaces for Organizing and Accessing Intellectual Assets(Springer-LNAI) 3359

      Pages: 243-255

  • [Journal Article] 検索語の網羅性に注目した汎化概念により検索語選択支援を行う情報検索システムの研究2005

    • Author(s)
      吉岡真治, 原口誠
    • Journal Title

      人工知能学会論文誌 20・4

      Pages: 270-280

  • [Book] 人工知能学辞典(「類推による学習」の項を執筆)(分担2頁)2005

    • Author(s)
      原口 誠(分担執筆)
    • Total Pages
      972
    • Publisher
      共立出版

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi