研究課題/領域番号 |
06551005
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 試験 |
研究分野 |
日本史
|
研究機関 | 日本女子大学 |
研究代表者 |
永村 眞 (永村 真) 日本女子大学, 文学部, 教授 (40107470)
|
研究分担者 |
阿部 勝海 エーヴァム, テクノロジー株式会社・システム開発研究室, 室長(研究職)
千本 英史 奈良女子大学, 文学部, 助教授 (50188489)
黒田 龍二 神戸大学, 工学部, 助教授 (40183800)
山岸 常人 京都大学, 大学院・工学研究科, 助教授 (00142018)
|
研究期間 (年度) |
1994 – 1996
|
研究課題ステータス |
完了 (1996年度)
|
配分額 *注記 |
10,500千円 (直接経費: 10,500千円)
1996年度: 2,200千円 (直接経費: 2,200千円)
1995年度: 2,600千円 (直接経費: 2,600千円)
1994年度: 5,700千円 (直接経費: 5,700千円)
|
キーワード | データベース / 史料 / 漢字文字列 / 句切 / 自動句切 / 形態素解析 / 索引 / 東大寺続要録 / 語句辞書 / テキスト・データベース / 語句索引 / 古文書 / 品詞 / 日本史史料 / シソ-ラス辞書 |
研究概要 |
日本史史料の全文テキストデータベース(以下DB)構築が積極的に進められつつある。この史料テキストDBの有効な活用を図るには、語句単位の処理が必須の条件となるが、古代以来の史料本文に記される語句の網羅的な辞書など現在のところ全く存在しない。そこで特定の史料から語句辞書を蓄積し、その辞書によって史料本文を対象とする自動句切処理を実行し語句索引を生成するとともに、語句辞書を充実させるという機能をもつ自動句切処理システムの開発を意図した。まず前提として、処理システム実現のための諸条件に検討を加えた。史料の漢字文字列を句切ることの研究上の意味を踏まえ、史料の漢字文字列の構成、漢字の字種、句切処理の実現の方向などを検討した。そして句切処理システム開発の基本方針として、形態素解析・構文解析・意味解析法のなかから、第一段階として形態素解析の手法をとることにした。この解析の基礎となる語句辞書の生成のための語句句切処理システムを開発し、その稼働によって「東大寺続要録」を素材としてから語句辞書を生成した。次に一定量が蓄積された語句辞書を用いて、コンピュータによる文字列句切を実行する自動句切処理システムを開発し、その稼働によって句切処理の問題点を検討した結果、形態素解析によりなかり精度の高い句切が可能であることを確認した。つまり手法としては素朴であるが、語句辞書が不完全で文法的規則性に乏しい史料の漢字文字列を対象とするには、自動句切と点検・修正の実行、再句切による辞書の充実という往復処理により、一定の効用を伴う処理システムが生まれた。また自動句切と点検・修正のなかで蓄積された句切語句ファイルから、様々な形式の索引集の印字出力が可能となった。以上のように、自動句切処理といいながら、実は語句句切をめぐるコンピュータと人間の共同作業が一定の効果を保証するという機能実現の方法が確認されたわけである。
|