研究概要 |
この研究は科学技術研究報告や新聞雑誌などに含まれる主要情報をテキスト解析により同定し、これから目的に応じていろいろな情報抽出を行なわうとするものである。このため各専門分野や、記述対象の物あるいは性質,関係,事象ごとに、いくつかのフレーム情報を用意しておく。そして与えられたテキストの標題,各節の見出しなどから試行錯誤的に選定したフレーム情報と、テキストを構文解析してえられたパラグラフや文節間のコヒーレント情報を用いてトップダウン的、且、ボタムアップ的にテキスト解析を行ない、テキストに含まれている主要情報を同定する。また主要情報を構成する要素などに関する補足情報については、対応するフレーム情報などを参照して必要なレベルまで同定し、フレームの形式に標準化する。 このような方法により、机上実験及び計算機実験を行なったところ、特許関係の文書や科学技術や社会経済などの新聞報道記事など、フレームの項目や内容の種類に関して多様性が大きくないものについては、実用上かなりよい見通しがえられた。しかし一般の技術論文などは、新しく知見がえられた特定事項に記述が集中し、記述形式や内容が多様であって、主要情報抽出の自動化のため、今後の研究が必要である。なお、このようにして求めたテキストの解析結果から、指定された長さ以下の要約文を生成する問題や、関係データベースに主要なフレーム情報を抽出する方法について、考察と実験を行なった。 今後はこのような方向で考察と実験を進めるとともに、ドクメンテーションのための能率的なデータベースの構築と更新などについても考察を進めたい。
|