2010 年度実績報告書

自然言語処理特化型の視覚的・対話的な半自動エラー解析のできる統合機械学習システム

研究課題

研究課題/領域番号	21500130
研究機関	東京大学
研究代表者	狩野芳伸東京大学, 大学院・情報学環, 特任研究員 (20506729)
研究分担者	三輪誠東京大学, 大学院・情報学環, 特任研究員 (00529646)
キーワード	自然言語処理 / 機械学習 / エラー解析 / 祖覚化 / 相互運用性
研究概要	本研究の目的は、機械学習を用いた自然言語処理タスクの実行をサポートする、統合自然言語処理環境の構築であり、頻用される機能の自動化と解析を助ける機能の追加が柱となる。具体的には、1.対応互換UIMAコンポーネント(コーパスリーダー・ツール)の追加とtype systemの拡張2.基盤システムの拡張と改良3.ユーザ・開発者のからのフィードバックとドキュメント整備等が必要である。 U-Compare互換のUIMAコンポーネントについては、これまでは英語の言語資源に限られていた。本年度では、引き続き英語の言語資源を増強しつつ、他の研究機関と協力して日本語の主立った言語資源の互換化作業を行なった。具体的にはtype system(データ型定義)の拡張を行った上で、国語研究所の「日本語コーパス」を中心に形態素解析器や係り受け解析器などを互換化した上でリポジトリに追加した。この作業を通じて、U-Compareの基盤機能が他言語に対応して動作することも確認できた。基盤システムの拡張については、機械学習APIの統合と素性重みの解析機能について、プロトタイプの実装作業を行い動作を確認した。その結果を踏まえて、SVM・MEMM・CRFといった異なる機械学習手法をある程度共通して扱えるよう、また、素性選択がより容易に行えるような機能を考慮したリリース版の設計を進めた。ワークフロー生成GUIについても、全面的な改良版の実装を進めた。これらと並行して、引き続きドキュメント等の増強を行い、開発者・ユーザのための環境を整えた。本年度は特に国内での活動に重点をおいて、関連学会への出席や講演等を積極的に行い、ユーザ数の増加を目指すとともにフィードバックの収集を行った。

研究成果
(5件)

すべて 2011 2010

すべて雑誌論文 (2件) (うち査読あり 2件) 学会発表 (3件)

[雑誌論文] Text Mining Meets Workflow : Linking U-Compare with Taverna2010
- 著者名/発表者名
  Kano, Yoshinobu, Paul Dobson, Mio Nakanishi, Jun'ichi Tsujii, Sophia Ananiadou
- 雑誌名
  
  Bioinformatics, Oxford Journals
  
  巻: 26(19) ページ: 2486-2487
- 査読あり
[雑誌論文] Extracting Protein-Interactions from Text with the Unified AkaneRE Event Extraction System2010
- 著者名/発表者名
  Swtre, Rune, Kazuhiro Yoshida, Makoto Miwa, Takuya Matsuzaki, Yoshinobu Kano, Junichi Tsujii
- 雑誌名
  
  Transactions on Computational Biology and Bioinformatics (TCBB)
  
  巻: 7(3) ページ: 442-453
- 査読あり
[学会発表] 日本語言語資源の統合的相互運用2011
- 著者名/発表者名
  狩野芳伸, 橋田浩一
- 学会等名
  言語処理学会第17回年次大会
- 発表場所
  豊橋技術科学大学
- 年月日
  2011-03-10
[学会発表] 自然言語処理プラットフォームの現状と利用2010
- 著者名/発表者名
  狩野芳伸
- 学会等名
  英語コーパス学会第36回大会シンポジウム
- 発表場所
  東京大学駒場キャンパス招待講演
- 年月日
  2010-10-09
[学会発表] U-Compare : An integrated language resource evaluation platform including a comprehensive UIMA resource library2010
- 著者名/発表者名
  Kano, Yoshinobu, Ruben Dorado, Luke McCrohon, Sophia Ananiadou, Jun'ichi Tsujii
- 学会等名
  Seventh International Conference on Language Resources and Evaluation (LREC 2010)
- 発表場所
  Valletta, Malta
- 年月日
  2010-05-19

2010 年度 実績報告書

自然言語処理特化型の視覚的・対話的な半自動エラー解析のできる統合機械学習システム

研究代表者

狩野 芳伸 東京大学, 大学院・情報学環, 特任研究員 (20506729)

研究成果

[雑誌論文] Text Mining Meets Workflow : Linking U-Compare with Taverna2010

著者名/発表者名

雑誌名

[雑誌論文] Extracting Protein-Interactions from Text with the Unified AkaneRE Event Extraction System2010

著者名/発表者名

雑誌名

[学会発表] 日本語言語資源の統合的相互運用2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 自然言語処理プラットフォームの現状と利用2010

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] U-Compare : An integrated language resource evaluation platform including a comprehensive UIMA resource library2010

著者名/発表者名

学会等名

発表場所

年月日

2010 年度実績報告書

狩野芳伸東京大学, 大学院・情報学環, 特任研究員 (20506729)