研究課題/領域番号 |
07558274
|
研究種目 |
試験研究(B)
|
研究機関 | 東京理科大学 |
研究代表者 |
藤崎 博也 東京理科大学, 基礎工学部, 教授 (80010776)
|
研究分担者 |
倉島 節尚 (株)三省堂, 出版局, 局長
大野 澄雄 東京理科大学, 基礎工学部, 助手 (80256677)
亀田 弘之 東京工科大学, 工学部, 助教授 (00194994)
|
キーワード | 語彙獲得 / 辞書データベースシステム / 未知語 / 未知語処理 / 未知語検出 / 未知語品詞推定 / 自然言語処理 / 知識獲得 |
研究概要 |
1.大規模な辞書データと新聞記事データの整理:申請者らが既に作成している大規模な単語辞書データに対して、新明解国語辞典(三省堂)、広辞苑(岩波書店)、EDR電子化辞書(EDR)等のデータを参照して、追加・拡張を行い、辞書データ(基本部分)の整理を行った。また、このデータと予め作成した新聞記事データとに関して、研究者相互の共用を目的として形式上の統一も図った。 2.意味体系を記述するデータ構造の決定と意味体系データの整理:EDR電子化辞書を基に、高度辞書データベースシステムで使用する意味記述用データ構造を決定するとともに、意味体系データをの整理し、本試験研究に必要な意味データの基幹部分を抽出した。 3.未知語自動検出部の設計と実装:べた書きされた日本語漢字仮名交じり文に対して形態素解析と統語解析とを行い、未知語を自動的に検出するプログラムを設計し、これをプログラミング言語prologを用いて未知語自動検出部作成用装置(DEC社製パーソナルコンピュータDigital CelebrisGT)上に実装した。 4.未知語品詞意味推定部の設計と実装:上記3のプログラム実装の基となるアルゴリズムに対して、未知語の品詞と意味とを自動推定することのできるように改良を加え、これに基づき未知語品詞意味推定部の設計を行った。また品詞推定の部分に関しては実装も完了した。 5.高度辞書データベースシステムの基本部分の実装と予備評価:上記1〜4の研究成果を統合し、高度辞書データベースシステム構築用装置(日本サン・マイクロシステムズ社製ワークステーションSUN Ultral System)上に、高度辞書データベースシステム(基本部分)を実装した。また、簡単な例文を素材として未知語検出・品詞推定機能とシステム全体の処理時間との予備評価を行い、基本的有効性を確認した。
|