本研究の目的は、機械学習を用いた自然言語処理タスクの実行をサポートする、統合自然言語処理環境の構築である。そのために、大きく分けて1.対応互換コンポーネント(コーパスリーダー・ツール)の追加とtype systemの拡張2.基盤システムの拡張と改良3.ユーザ・開発者のからのフィードバックとドキュメント等整備が必要である。 まず、基盤システムであるU-Compareに対応したコンポーネントを充実させるため、各国の研究機関と協力し作業を行うと同時に、type systemを拡張し新たなデータタイプをカバーした。 基盤システムの拡張については、機械学習との接続関係、特に視覚化部分の改良と発展の実装作業を行った。また、並列化によりワークフロー実行時のパフォーマンスを向上させるため、任意のUIMAコンポーネントをクラスタシステムに自動分散展開してサービス化し、外部からは単一サービスとして実行できる機構を実装した。 同時に、ドキュメントの増強やビデオチュートリアルの作成を行い、開発者・ユーザのための環境を整えた。関連学会への出席や講演等を積極的に行い、ユーザ数の増加を目指すとともにフィードバックを受けシステムの改良を行った。 BioNLP 2009 Shared Task on Event Extractionにorganizerとして参加し、基盤システムを公式サポートシステムとして提供した。さらに、基盤システムの機能を用いて、参加者の結果の混合を行い、どの参加者の結果よりもよりよい結果を得ることに成功した。発展として、参加者から数グループと共同作業を行い、参加者のツールを基盤システムに対応した互換コンポーネントとして一般提供する準備を進めている。 また、Bio Creative II.5に参加し、基盤システムを用いてワークフローの生成とサービス化を行った。CoNLL 2010 Shared Taskでも公式ツールとして対応互換コンポーネントが提供されるなど、ユーザ層を確実に広げることができた。
|