1996 年度研究成果報告書概要

日本史史料漢字文字列の自動句切処理システムの開発

研究課題

研究課題/領域番号	06551005
研究種目	基盤研究(A)
配分区分	補助金
応募区分	試験
研究分野	日本史
研究機関	日本女子大学
研究代表者	永村眞日本女子大学, 文学部, 教授 (40107470)
研究分担者	阿部勝海エーヴァム, テクノロジー株式会社・システム開発研究室, 室長(研究職) 千本英史奈良女子大学, 文学部, 助教授 (50188489) 黒田龍二神戸大学, 工学部, 助教授 (40183800) 山岸常人京都大学, 大学院・工学研究科, 助教授 (00142018)
研究期間 (年度)	1994 – 1996
キーワード	データベース / 史料 / 漢字文字列 / 句切 / 自動句切 / 形態素解析 / 索引 / 東大寺続要録
研究概要	日本史史料の全文テキストデータベース(以下DB)構築が積極的に進められつつある。この史料テキストDBの有効な活用を図るには、語句単位の処理が必須の条件となるが、古代以来の史料本文に記される語句の網羅的な辞書など現在のところ全く存在しない。そこで特定の史料から語句辞書を蓄積し、その辞書によって史料本文を対象とする自動句切処理を実行し語句索引を生成するとともに、語句辞書を充実させるという機能をもつ自動句切処理システムの開発を意図した。まず前提として、処理システム実現のための諸条件に検討を加えた。史料の漢字文字列を句切ることの研究上の意味を踏まえ、史料の漢字文字列の構成、漢字の字種、句切処理の実現の方向などを検討した。そして句切処理システム開発の基本方針として、形態素解析・構文解析・意味解析法のなかから、第一段階として形態素解析の手法をとることにした。この解析の基礎となる語句辞書の生成のための語句句切処理システムを開発し、その稼働によって「東大寺続要録」を素材としてから語句辞書を生成した。次に一定量が蓄積された語句辞書を用いて、コンピュータによる文字列句切を実行する自動句切処理システムを開発し、その稼働によって句切処理の問題点を検討した結果、形態素解析によりなかり精度の高い句切が可能であることを確認した。つまり手法としては素朴であるが、語句辞書が不完全で文法的規則性に乏しい史料の漢字文字列を対象とするには、自動句切と点検・修正の実行、再句切による辞書の充実という往復処理により、一定の効用を伴う処理システムが生まれた。また自動句切と点検・修正のなかで蓄積された句切語句ファイルから、様々な形式の索引集の印字出力が可能となった。以上のように、自動句切処理といいながら、実は語句句切をめぐるコンピュータと人間の共同作業が一定の効果を保証するという機能実現の方法が確認されたわけである。

研究成果
(3件)

すべてその他

すべて文献書誌 (3件)

[文献書誌] 永村眞: "コンピュータと歴史学-とくに日本史研究を通して" 岩波講座『日本通史』(史科論). 別巻3. 377-395 (1995)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 永村眞: "日本史史料漢字文字列のデータ表現" 人文学と情報処理. 10. 40-44 (1996)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] 永村眞: "日本史史料全文テキスト・データベースの構築とその活用" 第一回シンポジウムコンピュータ国文学講演集. 61-69 (1996)
- 説明
  「研究成果報告書概要(和文)」より