2004 Fiscal Year Annual Research Report
Project/Area Number |
16300039
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Hokkaido University |
Principal Investigator |
原口 誠 北海道大学, 大学院・情報科学研究科, 教授 (40128450)
|
Co-Investigator(Kenkyū-buntansha) |
田中 譲 北海道大学, 大学院・情報科学研究科, 教授 (60002309)
吉岡 真治 北海道大学, 大学院・情報科学研究科, 助教授 (40290879)
角田 篤泰 名古屋大学, 大学院・法学研究科, 助教授 (80292001)
大久保 好章 北海道大学, 大学院・情報科学研究科, 助手 (40271639)
|
Keywords | 極大類比 / 文書構造 / 類似性 / ストーリー / コーパス / 特異値分解 |
Research Abstract |
本研究の最終目標は、文化的背景ないし目的を共有する人々が、類似していると考える文書群に共通なストーリー構造を抽出し、抽出された構造をスクリプト的に用いることにより、より直感的で人々の共感を得やすい文書を生成するための基盤技法を確立することにある。この目的のために、本年度においては、下記を研究した: 100文を超える文書間の構造類似性を直接的に計算するのは困難であることから、まず(1)テキストタイリングにより文章全体をいくつかのブロックに分割し、(2)分割されたブロックを結合する機能を持つ少数のイベント(グラフ理論的な関節点に相当)を抽出し、さらに、(3)イベント間の共起関係に基づいた遷移確率と、関節点イベントに対するバイアスを併用したランキングアルゴリズムにより、イベントを順位づける方式を策定した。その有効性の検証のために、主として法律事例文を対象とした実験を行った。さらなる実験と検証は必要ではあるが、関節点イベントはストーリー構成上のキーとなるイベントであることから、キーイベントと意味的な関係が強いイベントのランクを高める効果を確認できた。 ただし、単に、形態素解析レベルでわかる共起のみならず、意味的な相関まで考慮したイベント間の共起関係を反映させるために、文を理解する背景となるコーパスを用い、特異値分解により算出される相関強度を用いた。 この成果によって、イベント数が多数である文書に対しても、構造類比を妥当な計算リソースのもとで算出するための圧縮法の基礎を築いた。
|
Research Products
(6 results)