研究課題/領域番号 |
06551005
|
研究機関 | 日本女子大学 |
研究代表者 |
永村 真 日本女子大学, 文学部, 教授 (40107470)
|
研究分担者 |
阿部 勝海 内外エレクトロニクス株式会社, システム開発研究室(67究職), 室長
千本 英史 奈良女子大学, 文学部, 助教授 (50188489)
黒田 龍二 神戸大学, 工学部, 助教授 (40183800)
山岸 常人 神戸芸術工科大学, 助教授 (00142018)
|
キーワード | 句切 / 語句辞書 / テキスト・データベース / 語句索引 / 漢字文字列 / 品詞 / 自動句切 / 東大寺続要録 |
研究概要 |
1、句切処理システムの開発 昨年度開発した句切語句生成システムにより作成された語句辞書に依拠して、自動句切処理システムを本年度に開発し、現在試験稼働を繰り返している。なお句切語句生成システムの操作性を改善するための機能改善を併せて進めつつある。また自動句切処理システムについては、当初期待した成果は必ずしも得られていないのが現状である。特に再句切作業を必要とする場面が多すぎるため、自動句切の精度を高めるためのシステムの改善については、来年度にわたって継続する必要を痛感している。 2、句切処理語句辞書の生成 自動句切の精度を辞書という側面から高めるために、素材データとなる「東大寺続要録」のテキストに句切符号を付け、辞書語句の蓄積作業を進めている。また語句辞書の階層化については、蓄積作業のレベルでの問題点(特に定義の標準化)について、検討を重ねている。特に人間の判断に基づく作業による不整合を、システム的に正する機能の実現を図っている。 3、素材データの校正作業 当初は活字本から入力した素材データ(「東大寺続要録」)について、東大寺図書館所蔵本をはじめとする諸写体による校正作業を実施して、語句辞書のみならずテキスト・データベースとして活用するため、原データの質を高めた。
|