研究課題
意味文脈を考慮し、かつ、大規模なテキスト集合を処理する基盤技術の確立を目指した研究の最終年度として、あらたな研究成果を上げると同時に、最終的な大規模実験、および、広い研究者集団に成果を公開するためにソフトウェア・データの整備を行った。以下の研究を行った。(1)スーバータギングの精度向上、意味の導入:局所的な情報のみを参照する従来のスーパータギングに浅い依存構造処理を統合することで、処理速度の劣化なしに精度を向上させることに成功した。現在の精度は、統合モデルよりも優れたものになっている。また、言語処理の初期段階であるタギング処理に意味を導入するモデルを構築した。(2)事象認識システムとパスウェイモデルの統合:前年度に開発した事象認識モデルをさらに改良し現時点で世界最高の性能を示すシステムとした。このシステム(EventMine)を一般に公開した。また、認識された事象をより広範な生命事象ネットワーク(Pathway)に写像するシステムを構築した。(3)GENIAコーパスの拡充と公開:英国マンチェスター大学、米国ヴァージニア工科大学と共同し、感染症関連の文献への意味アノテーションを行った。これは、たんぱく質関連に特化したこれまでのGENIAコーパスの範囲を大きく広げるものである。前年度に完成した32の事象アノテーションとこの感染症アノテーションを世界的に公開し、これをもとに国際的なコンペティション(BioNLP 2011)を組織した。コンペティションは、研究終了後の2011年6月に米国ポートランドで行われる。(4)文解析を用いた機械翻訳:英語の深い文解析手法を中国語にも拡張し、中国語の深い文解析システムを完成した。この2つの文解析システムを使い、これまでのTree2Strngの統計翻訳システムをTree2treeシステムへと拡張した。また、英語と中国語の文解析システム、および、Tree2Treeの機械翻訳ソフトウェアを公開した。(5)大規模言語処理システムの実験:前年度作成したワークフローを、英国マンチェスター大学と共同し抄録ではなく論文全文に適用する大規模な処理実験を行い、GXPが実用レベルの大規模処理に適用できることを実証した。実験では、8000以上の並列度(CPUコア数)が達成できることを確認した。
すべて 2011 2010 その他
すべて 雑誌論文 (19件) (うち査読あり 19件) 学会発表 (10件) 図書 (1件) 備考 (1件)
Proceedings of the 12th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2011), Lecture Notes in Computer Science. 6609.
ページ: 80-92
ページ: 313-327
PLoS ONE
巻: 6(3) ページ: e14780
Proceedings of the 23rd International Conference on Computational Linguistics (COLING 2010)
ページ: 19-27
ページ: 779-787
ページ: 788-796
ページ: 1417-1425
ページ: 851-859
ページ: 1281-1289
Proceedings of BioCreative III
ページ: 125-130
BMC Bioinformatics
巻: 11(Suppl 5) ページ: 06
巻: 11(Suppl 5) ページ: 7
Bioinformatics.
巻: 26(19) ページ: 2486-2487
Journal of Bioinformatics and Computational Biology (JBCB)
巻: 8(5) ページ: 901-916
巻: 8(5) ページ: 917-928
Proceedings of the fourth International Symposium for Semantic Mining in Biomedicine (SMBM 2010)
ページ: 48-56
ページ: 57-65
Proceedings of the 3rd IEEE Workshop on Many-Task Computing on Grids and Supercomputers (MTAGS 2010)
ページ: 1-10
Proceedings of the 2010 IEEE 6th International Conference on e-Science
ページ: 214-221
http://www-tsujii.is.s.u-tokyo.ac.jp/index-j.html