1995 Fiscal Year Annual Research Report
目次の構造と索引等を利用した日本語文献のハイパーテキスト化による高次検索システム
Project/Area Number |
06680385
|
Research Institution | Koka Women's College |
Principal Investigator |
谷口 敏夫 光華女子大学, 文学部, 助教授 (70257781)
|
Co-Investigator(Kenkyū-buntansha) |
長尾 真 京都大学, 工学部, 教授 (30025960)
|
Keywords | 目次情報 / 索引情報 / 全文情報 / 階層的用語 / 形態素解析プログラム / JUMAN / 電子図書館 / 高次検索システム |
Research Abstract |
本研究は、目次情報と索引によって全文の知識の枠組みを組み立て、それを教師とした検索システムを開発し、ハイパーテキストに再構成することによって、電子図書館などの今後の大量全文情報検索に対して、一定の技術的かつデザイン的な指標を与えるという目的と意義を持つ。このために次のような研究過程を準備し、実験した。 (1)全文に現れる用語を章立てなどの階層構造を保存したまま抽出し、書名や目次の章節に現れた階層的用語、および索引語との異同を調査した。 (2)その調査から、書名・目次・全文や索引に現れる用語の相互関係を明確にし、その関係を教師とした高次検索方式を考案し、実験した。 (3)階層性を考慮した全文のハイパーテキスト化を計り、(2)の検索方式を埋め込んだ。最終的に20冊の学術図書の全文を計算機可読の形で入手し、章立て構造を保った形でデータベース化した。長尾の開発した形態素解析プログラムJUMANを導入し、これを用いて上記学術図書のテキストの形態素解析を行い、その結果取り出された名詞のうち一般用語辞書に登録されている語を除き、複合語と未知語とをその図書の特徴を表現する用語であるとして取り出すプログラムを整備した。また目次データのタグ構成は長尾の考案したものを使用したが、かなりの目次について自動タグ付けができるようになった。その成果は長尾によって電子図書館実験システム(Ariadne)に実装された。 前年の問題点として残った目次の章立て方式や精粗の異なりについては、これを統一的にとらえることができた。章立て方式の異同はタグ付けの一般化によって整形し、さらに階層の相対的な上下関係を判定する検索プログラムによって解消した。精粗の異なりは全文テキスト自体の名詞を用いた知識利用によってほぼ解消した。
|
Research Products
(6 results)
-
[Publications] 谷口 敏夫: "情報図書館構想" 情報・メディア・空間のデザイン(情報処理学会). シンポジウム95. 41-48 (1995)
-
[Publications] 谷口 敏夫: "キャンパスネットワークと電子図書館" 仮想メディア技術の現状と将来(システム制御情報学会). 45. 73-86 (1996)
-
[Publications] 谷口 敏夫: "日本語文章における要約と自動索引" 光華女子大学研究紀要. 33. 47-81 (1995)
-
[Publications] 長尾 真: "電子図書館Ariadneの開発(1)システム設計の方針" 情報管理. 38(3). 191-206 (1995)
-
[Publications] 谷口 敏夫: "電子図書館Ariadneの開発(2)データの入力と編集" 情報管理. 38(4). 324-337 (1995)
-
[Publications] 長尾 真: "名詞の指示性を利用した日本語文章における名詞の指示対象の推定" 自然言語処理(言語処理学会). 3(1). 67-81 (1996)