1996 年度実績報告書

大量テキストデータからの高度な情報抽出・検索方式の研究

研究課題

研究課題/領域番号	08458081
研究種目	基盤研究(B)
研究機関	九州工業大学
研究代表者	野村浩郷九州工業大学, 情報工学部, 教授 (30208392)
研究分担者	永井秀利九州工業大学, 情報工学部, 助手 (60237485) 中村貞吾九州工業大学, 情報工学部, 講師 (40198221)
キーワード	自然言語処理 / 大量テキスト / 情報抽出 / 情報検索 / テキスト処理 / 対話処理 / ファジィ理論
研究概要	インターネットなどのコンピュータネットワークの発展・普及に伴い,その上の多量の情報から的確に情報を抽出・検索する技術への社会的要請は極めて強いものになっている.そこで、本研究では,大量テキストデータからの情報抽出方式と情報検索方式の二つの研究を進めた。情報の抽出・検索の処理としては,深い意味処理を行う方法も考えられるが,現在の自然言語処理技術の成熟度では実現性に乏しく,また、コスト的に不経済である.そこで本研究では,まず、新聞記事からの情報抽出の研究として、情報の表層的な特徴に基づくテンプレートというものを提案し,それによる高速でかつ精度の高い低コストの情報抽出方式を提案し、約10年分の新聞記事を分析することによりそのテンプレートの作成と記述と適用の方法を工夫して効率化し、それらに基づき実際に実験システムを作成してその機能を検証した。この実験システムは、インターネットの当研究室のホームページで実際に動かしてみれるようにしてある。次に、対話による情報検索の研究として、検索要求の内容の曖昧さを適切で効率的な対話によって解消し、かつ要求の言語表現の曖昧さをファジイ論理の応用により適切に解決する柔軟で親切な旅行申込対話処理方式を提案し、旅行対話を内容とするATRコーパスを分析することによりその適用や評価の方法を工夫して効率化し、それらに基づき実際に実験システムを作成してその機能を検証した。この実験システムもインターネットの当研究室のホームページで実際に動かしてみれるようにしてある。

研究成果
(4件)

すべてその他

すべて文献書誌 (4件)

[文献書誌] 井出裕二: "構造化テンプレートを用いた新聞記事からの製品情報抽出" 情報処理学会研究報告自然言語処理研究会. 97・29 97-NL-118. 7-14 (1997)
[文献書誌] 藤吉誠: "情報抽出処理のためのテンプレート作成" 電気関係学会九州支部連合大会講演論文集. No.1332. 694-694 (1996)
[文献書誌] 井出裕二: "テンプレートを用いた新聞記事からの製品情報抽出システム" 情報処理学会研究報告自然言語処理研究会. 96・87 96-NL-115. 83-90 (1996)
[文献書誌] 野村浩郷: "電子化テキストコーパスの課題と展望" 情報処理学会「大規模テキストコーパスの作成と共有の問題点」シンポジウム. 1-6 (1996)