研究課題/領域番号 |
05558038
|
研究機関 | 東京理科大学 |
研究代表者 |
藤崎 博也 東京理科大学, 基礎工学部, 教授 (80010776)
|
研究分担者 |
倉島 節尚 (株)三省堂, 出版局, 局長
大野 澄雄 東京理科大学, 基礎工学部, 助手 (80256677)
広瀬 啓吉 東京大学, 工学部, 教授 (50111472)
亀田 弘之 東京工科大学, 工学部, 助教授 (00194994)
|
キーワード | 高速・高精度検索 / 語 知識の獲得 / 辞書データベース / 未知語 |
研究概要 |
本年度は、当初の計画・方法に従って研究を推進し、以下の成果を収めた。 1.辞書データの詳細仕様の決定:辞書データベースのデータは、品詞名・表記・読み・意味・既知単語か獲得単語かの別、を可変長形式で記述するように決定した。 2.検索・獲得部の実装と評価:辞書データベースの検索部と獲得部とをプログラミング言語Cとprologとを用いて記述するとともに、これを辞書データベース構築用装置上に実装した。また、前年度作成した辞書データを素材として検索・獲得部の評価を行い、その基本的有効性を確認した。 3.最終的な辞書データの作成:前年度作成した辞書データを、上記1の仕様に従って加工し、これを辞書データベース構築用装置上に格納するとともに、辞書データ中の誤りを既存の文字列検索ツール(awkとsed)を利用して検出し修正を行い、最終的な辞書データとした。 4.辞書データベースの作成:上記2と3にもとづき、辞書データベースを辞書データベース構築用装置上に作成し、その基本的な動作(高速・高精度検索および未知語獲得)を確認するとともに、検索速度・精度の点で従来の検索システムとの比較評価を行い、これらの点における本システムの優位性を確認した。 5.辞書データベースの有効性の検証:上記4で作成した辞書データベースを日本語漢字仮名交じり文の形態素解析に適用し、新聞記事文と天気概況文とを素材として評価を行った。その結果、検索速度・精度および未知語獲得機能の両方において、所定の性能が実現されたことを確認し、本データベースの有効性を検証した。
|