研究課題
本研究は、機械学習技術と記号処理アルゴリズムとを融合した手法を、意味・文脈・知識処理に適用することで、高度な言語処理技術の構築をめざしている。このために、本格的な意味知識処理を含む高度言語処理にとって必要な3つの基盤、(1) 構造に関する理論と確率・機械学習の理論を有機的に統合した理論、(2) 大規模な意味・知識リソース、(3) 大規模データを処理する計算環境を確立した上で、(4) 意味・知識処理技術の研究を系統的に行うことを目的としている。また、研究成果の有効性を実証できる応用システムとして、(5) 生命科学分野のテキストマイニングと高品質機械翻訳のシステムの開発を同時進行的に行なっている。平成20年度は、以下の研究をおこなった。1. 深い文解析と意味知識処理:深い文解析を本格的な情報抽出(タンパク質相互作用の抽出)に適用し、従来のシステムの精度を格段に向上させた。深い解析が情報抽出に有効との結果を世界で最初に実証した。2. 系列tagging学習器:隠れ変数を使った機械学習を言語処理へ適用し、深い文解析の速度を20倍向上させるとともに、固有名認識などの意味処理タスクでも、世界最高水準のパフォーマンスを達成した。3. GENIAコーパス:構築したGENIAコーパスは、これを使った国際コンペティションに24チームが参加するなど、生命科学分野でのデ・ファクトの国際標準となっている。4. U-Compare:言語処理ソフトウェア共有枠組み(U-Compare)は、世界で最大(組み込みツール40超)の共有枠組みとなっている。この研究は、UIMA Innovation AwardをIBM Watson研究所より受賞(2009年)。5. 計算環境:並列処理の記述を殆どしなくてよい汎用的ワークフロー処理系、任意の計算資源の上に分散ファイルシステムを構築するシステムという、汎用性の高いデータ処理の枠組みを確立した。
すべて 2009 2008 その他
すべて 雑誌論文 (24件) (うち査読あり 24件) 学会発表 (15件) 備考 (1件)
Bioinformatics 25(3)
ページ: 394-400
the Proceedings of EACL
ページ: 790-798
the Proceedings of the SIAM International Conference on Data Mining (SDM)
ページ: 838-846
the Proceedings of the ACM Transactions on Asian Language Information 8(2)
ページ: 9:1-9:21
Bioinformatics 25(15)
ページ: 1997-1998
the Proceedings of Advanced Computer Systems (ACS 2009) 2
ページ: 47-57
the Proceedings of Human Language Technologies : The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL HLT 2009)
ページ: 121-124
ページ: 97-100
ページ: 56-64
ページ: 424-432
the Proceedings of Natural Language Processing in Biomedicine (BioNLP) NAACL 2009 Workshop
ページ: 1-9
ページ: 103-106
ページ: 106-107
ページ: 162-170
the Proceedings of the BioNLP 2009 Workshop Companion Volume for Shared Task
the Proceedings of the Software engineering, testing, and quality assurance for natural language processing workshop (SETQA-NLP), NAACL-HLT
ページ: 22-30
the Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2009)
ページ: 772-780
The Proceedings of the Third International Symposium on Semantic Mining in Biomedicine (SMBM 2008)
ページ: 101-108
ページ: 117-124
ページ: 149-152
The Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing (EMNLP 2008)
ページ: 447-456
The Proceedings of the 8th Conference of the Association for Machine Translation in the Americas (AMTA 2008)
ページ: 202-211
the Proceedings of ACM 17th Conference on Information and Knowledge Management (CIKM 2008)
ページ: 1349-1350
Bioinformatics 24(21)
ページ: 2259-2260
http://www-tsujii.is.s.u-tokyo.ac.jp/index-j.html