2005 Fiscal Year Annual Research Report
Project/Area Number |
16300039
|
Research Institution | Hokkaido University |
Principal Investigator |
原口 誠 北海道大学, 大学院・情報科学研究科, 教授 (40128450)
|
Co-Investigator(Kenkyū-buntansha) |
田中 譲 北海道大学, 大学院・情報科学研究科, 教授 (60002309)
吉岡 真治 北海道大学, 大学院・情報科学研究科, 助教授 (40290879)
角田 篤泰 名古屋大学, 大学院・法学研究科, 助教授 (80292001)
大久保 好章 北海道大学, 大学院・情報科学研究科, 助手 (40271639)
|
Keywords | 極大類比 / 文書構造 / 類似性 / 物語の構造解析 / コーパス / 特異値分解 / トピック・文脈解析 |
Research Abstract |
本研究の最終目標は、文化的背景ないし目的を共有する人々が、類似していると考える文書群に共通なストーリー構造を抽出し、抽出された構造をスクリプト的に用いることにより、より直感的で人々の共感を得やすい文書を生成するための基盤技法を確立することにある。この目的のために、本年度は昨年度与えた物語の構造解析手法の改良を行い、解析結果に基づいて極大類比(イベント列間の構造類比)を求めるアルゴリズムの洗練化を行った。具体的には下記のとおりである。 イベント列としての物語を、主題を中心にして分割するために、テキストセグメンテーションにより、連続したイベントからなる複数のイベントブロックに分割する。ブロック毎に話題を表す語彙(中心語彙群)を共起性に基づくグラフにおけるクリークとして抽出し、話題は共起に関して密に結合された語彙集合として定める。次に、話題を結びつける機能を持つ語彙もしくはイベントを特定する。昨年度実装した方式は手がかかり語によってアドホックに決める方式であったが、本年度は、キーグラフ同様に、異なる中心語彙群との相関により話題に基づく支持度を求め、複数の話題に共通に支持される度合いを語彙が持つ話題結合度として定めた。話題結合度の高い語彙は、文脈的な語彙として捉えることが可能であり、そうした結合度の高い語彙をより多く含むイベントを複数のブロックを繋ぐイベントとして抽出する。 上記の手法で同定された物語構造(イベントブロック-中心語彙群-ブロック結合構造)を保存する構造写像を高速に算出するためのアルゴリズムを、イベントブロックの分割統治と過度の抽象化を抑制する制御規則を持つものとして策定した。高速化のポイントは、分割統治の効果と過度の抽象化の制御規則が固有に持つ枝刈規則に加え、中心語彙群と結合構造の保存性スコアーを新たに導入し、そのスコアー下限値(事前に与える)に基づく枝刈規則を新たに与える点にある。これら3種類の探索枝刈の実装により、一般には指数オーダの処理が必要になる構造類比の算出手法の高速化に対する新たな道を切り開いた。
|
Research Products
(7 results)