研究課題/領域番号 |
13680492
|
研究機関 | 武蔵工業大学 |
研究代表者 |
上原 徹三 武蔵工業大学, 工学部, 教授 (60257102)
|
研究分担者 |
清水 由美子 武蔵工業大学, 環境情報学部, 助教授 (30298020)
荒井 秀一 武蔵工業大学, 工学部, 助教授 (20212590)
|
キーワード | 日本語処理 / 自然言語処理 / コーパス / 形態素解析 / 検索 / 概念情報 / 単語辞書 / 対訳辞書 |
研究概要 |
自然言語のコンピュータ処理の研究に重要なデータとして、辞書とコーパス(文例集。文法情報を付加したものは特に重要)がある。単語辞書には、単語の読みや品詞の情報の他に意味概念情報が望まれる。例えば、日本電子化辞書研究所(EDR)の日本語単語辞書はそのような情報を与える。現代文コーパスについても、EDR日本語コーパスがある。しかし、単語辞書もコーパスも古典文に関する電子化データはほとんどない。 そこで、本年度は、コーパスと単語辞書に関する次の検討を行った。 1.平安時代古典仮名文の品詞タグ付きコーパス(EDR日本語コーパス形式)の試作 紫式部日記などの日記文学および伊勢物語などの物語文学に関する市販の総索引から、EDR日本語コーパス形式の品詞タグ付きコーパスに半自動変換を行った後、人手による修正で古典仮名文コーパスを完成した。 2.確率的形態素解析の実験 上で作成した古典仮名文コーパスを学習・評価データとする確率的形態素解析の実験と評価を開始した。 3.EDR日本語コーパス参照支援ツールの高速化 既作成のEDR日本語コーパス参照支援ツールに対して、品詞・単語表記索引による検索機能を付加し、検索速度の向上を図った。 この件に関して、情報処理学会全国大会で発表した。 4.対訳辞書の見出し語の概念推定法 訳語の概念が既知である対訳辞書からの見出し語の概念推定法の提案とその評価を実施した。本技術は、古語辞典(古典日本語の見出しに対して現代日本語で訳語を与える対訳辞書)による古典語の概念獲得の基礎技術となり得るものである。 この件に関して、情報処理学会全国大会で発表した。
|