2010 Fiscal Year Annual Research Report
自然言語処理特化型の視覚的・対話的な半自動エラー解析のできる統合機械学習システム
Project/Area Number |
21500130
|
Research Institution | The University of Tokyo |
Principal Investigator |
狩野 芳伸 東京大学, 大学院・情報学環, 特任研究員 (20506729)
|
Co-Investigator(Kenkyū-buntansha) |
三輪 誠 東京大学, 大学院・情報学環, 特任研究員 (00529646)
|
Keywords | 自然言語処理 / 機械学習 / エラー解析 / 祖覚化 / 相互運用性 |
Research Abstract |
本研究の目的は、機械学習を用いた自然言語処理タスクの実行をサポートする、統合自然言語処理環境の構築であり、頻用される機能の自動化と解析を助ける機能の追加が柱となる。具体的には、1.対応互換UIMAコンポーネント(コーパスリーダー・ツール)の追加とtype systemの拡張2.基盤システムの拡張と改良3.ユーザ・開発者のからのフィードバックとドキュメント整備等が必要である。 U-Compare互換のUIMAコンポーネントについては、これまでは英語の言語資源に限られていた。本年度では、引き続き英語の言語資源を増強しつつ、他の研究機関と協力して日本語の主立った言語資源の互換化作業を行なった。具体的にはtype system(データ型定義)の拡張を行った上で、国語研究所の「日本語コーパス」を中心に形態素解析器や係り受け解析器などを互換化した上でリポジトリに追加した。この作業を通じて、U-Compareの基盤機能が他言語に対応して動作することも確認できた。 基盤システムの拡張については、機械学習APIの統合と素性重みの解析機能について、プロトタイプの実装作業を行い動作を確認した。その結果を踏まえて、SVM・MEMM・CRFといった異なる機械学習手法をある程度共通して扱えるよう、また、素性選択がより容易に行えるような機能を考慮したリリース版の設計を進めた。ワークフロー生成GUIについても、全面的な改良版の実装を進めた。 これらと並行して、引き続きドキュメント等の増強を行い、開発者・ユーザのための環境を整えた。本年度は特に国内での活動に重点をおいて、関連学会への出席や講演等を積極的に行い、ユーザ数の増加を目指すとともにフィードバックの収集を行った。
|