2003 Fiscal Year Annual Research Report
Project/Area Number |
01J02558
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
浅原 正幸 奈良先端科学技術大学院大学, 情報科学研究科, 助手
|
Keywords | 自然言語処理 / 統計的形態素解析 / 電子化辞書 / 言語資源データベース / 未知語抽出 / 日本語固有表現抽出 / 話し言葉の解析 / フィラー、言いよどみ |
Research Abstract |
昨年から引き続き、形態素解析器、固有表現抽出器、未知語抽出器を開発している。今年は、他機関で開発されている多言語間質問応答システムに、本研究で開発した形態素解析器および固有表現抽出器を組み込み、実用上での有効性を検証した。基礎技術を応用システムに導入する良い機会となった。 昨年までの未知語抽出器は、抽出された未知語の品詞情報を推定することができなかった。今年は大量のラベルなしのデータと少量のラベルつきのデータを用いて、品詞情報を推定する手法を研究した。これにより、形態素解析器辞書整備の半自動化が可能となった。 多言語化に向けて、中国語(簡体字および繁体字)の形態素解析の問題に取り組み、日本語と同様な手法で、固有表現抽出および未知語抽出器を構成した。また、SIGHAN Workshopという国際会議において、中国語の分かち書きに関するコンテストが開かれたが、我々も作成したシステムを参加させ、中程度の順位に食い込むことができた。これは、日本語で我々が提案した手法が中国語においても応用可能であることの証明となった。 コーパス検索システムについては、Windowsでも動くシステムを開発した。これにより、unix環境に不得手な文科系研究者も、大量のテキストデータを検索できるようになると考えている。
|