研究課題/領域番号 |
06680385
|
研究種目 |
一般研究(C)
|
配分区分 | 補助金 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 光華女子大学 |
研究代表者 |
谷口 敏夫 光華女子大学, 文学部, 助教授 (70257781)
|
研究分担者 |
長尾 真 京都大学, 工学部, 教授 (30025960)
|
研究期間 (年度) |
1994 – 1995
|
研究課題ステータス |
完了 (1995年度)
|
配分額 *注記 |
2,100千円 (直接経費: 2,100千円)
1995年度: 700千円 (直接経費: 700千円)
1994年度: 1,400千円 (直接経費: 1,400千円)
|
キーワード | 目次情報 / 索引情報 / 全文情報 / 階層適用語 / 形態素解析プログラム / JUMAN / 電子図書館 / Ariadne / 階層的用語 / 高次検索システム |
研究概要 |
本研究は、目次情報と索引によって全文の知識の枠組みを組み立て、それを教師とした検索システムを開発し、ハイパーテキストに再構成することによって、電子図書館などの今後の大量全文情報検索に対して、一定の技術的かつデザイン的な指標を与えるという目的と意義を持つ。このために次のような研究過程を準備し、実験した。 (1)全文に現れる用語を章立てなどの階層構造を保存したまま抽出し、書名や目次の章節に現れた階層的用語、および索引語との異同を調査した。 (2)その調査から、書名・目次・全文や索引に現われる用語の相互関係を明確にし、その関係を教師とした高次検索方式を考案し、実験した。 (3)階層性を考慮した全文のハイパーテキスト化を計り、(2)の検索方式を埋め込んだ。 最終的に20冊の学術図書の全文を計算機可読の形で入手し、章立て構造を保った形でデータベース化した。長尾の開発した形態素解析プログラムJUMANを導入し、これを用いて上記学術図書のテキストの形態素解析を行い、その結果取り出された名詞のうち一般用語辞書に登録されている語を除き、複合語と未知語とをその図書の特徴を表現する用語であるとして取り出すプログラムを整備した。また目次データのタグ構成は長尾の考案したものを使用したが、かなりの目次について自動タグ付けができるようになった。その成果は長尾によって電子図書館実験システム(Ariadne)に実装された。 前年の問題点として残った目次の章立て方式や精粗の異なりについては、これを統一的にとらえることができた。章立て方式の異同はタグ付けの一般化によって整形し、さらに階層の相対的な上下関係を判定する検索プログラムによって解消した。精粗の異なりは全文テキスト自体の名詞を用いた知識利用によってほぼ解消した。
|