2002 Fiscal Year Annual Research Report
Project/Area Number |
13680492
|
Research Institution | Musashi Institute of Technology |
Principal Investigator |
上原 徹三 武蔵工業大学, 工学部, 教授 (60257102)
|
Co-Investigator(Kenkyū-buntansha) |
清水 由美子 武蔵工業大学, 環境情報学部, 助教授 (30298020)
荒井 秀一 武蔵工業大学, 工学部, 助教授 (20212590)
|
Keywords | 日本語処理 / 自然言語処理 / コーパス / 形態素解析 / 検索 / 概念情報 / 単語辞書 / 対訳辞書 |
Research Abstract |
自然言語のコンピュータ処理の研究に重要なデータとして、辞書とコーパス(文例集。文法情報を付加したものは特に重要)がある。単語辞書には、単語の読みや品詞の情報の他に意味概念情報が望まれる。例えば、日本電子化辞書研究所(EDR)の日本語単語辞書はその情報を与える。現代文コーパスについてもEDR日本語コーパスがある。しかし、単語辞書もコーパスも古典文に関する電子化データはほとんどない。 本年度の交付申請書に記した実施計画は、古典文の品詞タグ付きコーパスを利用した確率的形態素解析、EDR形式コーパスからXML形式コーパスへの変換とその参照検索機能の試作の2点である。これらを含め本年度実施項目は次の通りである。 1.平安時代古典仮名文の品詞タグ付きコーパスの変換作成法の提案 前年度までに、日記文学・物語文学の総索引から品詞タグ付きコーパスを変換・作成したが、その変換方法について論文にまとめ言語処理学会に投稿し受理された。なお、コーパスの形式・内容の改良の検討中。 2.確率的形態素解析の実験 上の古典仮名文コーパスを学習・評価データとする確率的形態素解析の実験と評価を実施した。評価においては、学習データとテストデータを順次ずらした繰返し実験により信頼度を求める等の配慮を行った。 3.対訳辞書の見出し語の概念推定法 訳語の概念が既知である対訳辞書からの見出し語の概念推定法の提案とその評価を昨年度に実施した。古語辞典から古語の概念を取得するという研究開始当初の目的は実現できなかったが、現段階での推定手法とその必要性について電子情報通信学会論文誌に投稿中である。 4.EDR形式コーパスからXML形式コーパスへの変換とその参照検索機能の試作 EDR形式コーパスから、文の構成単位に関する文法情報を上位タグとして持つXML形式コーパスへの形式変換とその参照検索機能の試作を実施した。その評価は今後の課題である。
|
Research Products
(1 results)