Budget Amount *help |
¥1,800,000 (Direct Cost: ¥1,800,000)
Fiscal Year 2001: ¥500,000 (Direct Cost: ¥500,000)
Fiscal Year 2000: ¥1,300,000 (Direct Cost: ¥1,300,000)
|
Research Abstract |
本研究ではテキスト内に書かれた情報を解析し,その内容を図によって表現する処理を自動化するための技術の調査研究を目的としてきた.そのためにクリアしなければならない課題として,テキスト情報を解析するための技術(テキスト解析部)と,図による出力のための素材や規則の整備の2つに大きく分けて計画し,調査,研究を進めてきた.このうち主にテキスト情報の解析を,1.テキスト中の重要個所を認識するための技術,2.テキスト中の人や物,場所,その他図式化の対象となる実体を認定するための技術,3.複数の実体を関係づける述部を認識するための技術,4.同一話題,実体を認定するための技術,の4つに分けて研究を進めた. この内,1のテキスト中の重要個所の認識については,語彙的連鎖と構文解析の結果を組み合わせた情報を利用して,文中で最も重要な部分を選び出すための手法を提案し,実際に動作するモジュールの作成を行った.またこのモジュールを利用して重要個所抽出による文章の自動要約を行い実験により評価を行うことができた.2の実体の認定については,提題助詞が付属する名詞や未知語および文章中に繰り返し出現する名詞,未知語と語彙的連鎖の情報を手がかりとして特定する手法を用いてモジュールを作成した.3の述部の認識では,1で用いたテキスト自動要約の技術を応用し,文から命題を抽出する手法と,言い換えの技術を組み合わせる方法を調査し,モジュール作成を進めている.4の同一話題,実体の認定については,3での命題の抽出結果と,情報抽出で用いられる省略表現の知識の利用と,複合名詞のヘッド部分でのマッチング手法を用いる手法を調査中である.全体としてはテキスト中で図示すべき重要個所の絞り込み,実体の認定を行うための知識の整備,モジュールの整備が進んできたため,自動化の見通しがある程度たってきたと言える. 一方で,研究調査を進めてきた過程で,図示を行うためには特に3, 4の処理においてより深い意味解析を行う必要があるという課題も明らかになってきた.完全な自動化に向け今後更に研究を進めていく必要がある.当該研究の期間中に「語彙的連鎖計算モジュール」「テキスト中の重要個所計算モジュール」「自動要約作成モジュール」「命題抽出モジュール」を作成することができ,一部は公開している.これらは,今後継続的に利用及び公開していく予定である.
|