2002 Fiscal Year Annual Research Report
Project/Area Number |
01J02558
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC1)
|
Keywords | 自然言語処理 / 統計的形態素解析 / 電子化辞書 / 言語資源データベース / 未知語抽出 / 日本語固有表現抽出 / 話し言葉の解析 / フィラー、言いよどみ |
Research Abstract |
日本語の形態素解析器で採用しているIPA品詞体系に代わるUniDic品詞体系の整備を前年度に引き続き行っている。可能性に基づく品詞設定と、複数の語の長さ定義を持つことにより、形態素解析する上での問題点の分割を行った。具体的には基底となる語の長さ(第1層単位)、音韻論的情報を付与することが可能な長さ(第2層単位)、その他の複合語を取り扱う語の長さ(第3層単位)の3つの定義に分類し、これに対する解析モデルを提案した。 新しい品詞体系を導入するにあたり、必要なコーパス整備環境の開発を行った。コーパス中の語の単位の一貫性を保持できるような言語資源データベースの構成手法を提案した。コーパス中に出現する語とあらかじめ整備された辞書とを関係データベース上で関連づけることにより実現している。また、この枠組みの中で、コーパスにタグづけする際に起きるタグ間のオーバーラップやギャップに対するタグづけの問題をも対処可能にした。 今年度は新しい課題として日本語テキスト中の未知語の問題についても取り組んだ。形態素解析器とチャンカーを用いて、未知語を抽出する手法を提案した。同様の手法を用いて、話し言葉を解析する上で問題となるフィラーおよび言いよどみを抽出する手法を提案した。提案手法では、既存の手法では抽出できなかった、低頻度の未知パターンを抽出することが可能となっている。 さらに提案手法を日本語の固有表現抽出に適用し、本研究の重要課題である日本語のわかち書き問題を解決するとともに、既存の手法を上回る精度を達成することができた。
|
Research Products
(2 results)
-
[Publications] 浅原正幸, 米田隆一, 山下亜希子, 伝康晴, 松本裕治: "語調変換を考慮したコーパス管理システム"情報処理学会論文誌. 43巻7号. 2091-2097 (2002)
-
[Publications] 浅原正幸, 松本裕治: "形態素解析のための拡張統計モデル"情報処理学会論文誌. 43巻3号. 685-695 (2002)