研究課題/領域番号 |
13680492
|
研究種目 |
基盤研究(C)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
情報システム学(含情報図書館学)
|
研究機関 | 武蔵工業大学 |
研究代表者 |
上原 徹三 武蔵工業大学, 工学部, 教授 (60257102)
|
研究分担者 |
清水 由美子 武蔵工業大学, 環境情報学部, 助教授 (30298020)
荒井 秀一 武蔵工業大学, 工学部, 助教授 (20212590)
|
研究期間 (年度) |
2001 – 2002
|
キーワード | 日本語処理 / 自然言語処理 / コーパス / 形態素解析 / 概念情報 / 単語辞書 / 対訳辞書 |
研究概要 |
コンピュータによる自然言語研究で辞書とコーパス(文例集。文法情報を付加したものは特に有用)が重要である。単語辞書には読み・品詞情報の他に概念情報が望まれる。現在の日本語については、概念情報を与える単語辞書と文法情報を付加したコーパスが電子化データとして存在する。しかし、古典文に関してはそのような単語辞書もコーパスも存在しない。 そこで、単語辞書とコーパスの整備とその応用に関する機能の試作と実験を行ない次の成果を得た。 1.総索引からの品詞タグ付きコーパス変換作成機能の試作とそれによる古典文品詞タグ付きコーパスの試作 紫式部日記などの日記文学および伊勢物語などの物語文学に関する市販の総索引から、品詞タグ付きコーパスに半自動変換を行った後、人手による修正で古典仮名文コーパスを完成した。 2.品詞タグ付きコーパスによる確率的形態素解析 上の古典仮名文コーパスを学習・評価データとする確率的形態素解析の実験と評価を実施した。評価においては、学習データとテストデータを順次ずらした繰返し実験により信頼度を求める等の配慮を行った。 3.対訳辞書の見出し語の概念推定法 訳語の概念が既知の対訳辞書を用いて、訳語からの見出し語概念の推定とその評価を実施した。本技術は、古語辞典(古典語見出しに対し現代語訳語を与える)による古典語の概念獲得の基礎技術となり得るものである。ただし、古語辞典から古語の概念を取得するという研究開始当初の目的は実現できなかった。これに関しては概念辞書の整備、概念推定法の改良など、さらに検討すべき課題がある。
|