研究課題
意味文脈を考慮し、かつ、大規模なテキスト集合を処理する基盤技術の確立を目指して、以下の研究成果を上げた。(1)スーパータギングを中核にした文解析モデル:素性文法のためのスーパータギングの技術を開発し、段階的な文解析モデルを構築した。このモデルは、統合的な統計モデルに比べ、5倍から7倍の処理速度を持つことを確認した。(2)生命事象認識システム:文解析の結果を素性として使い、従来の木構造カーネルと同様な精度をもち、かつ、高速度の認識ができるSVM分類器を作成し、これを文献からの生命事象認識システムに適用した。このシステムは、処理速度だけでなく、精度面でも国際コンペティション(ACL BioNLP)で24チーム中2位の性能を示した。(3)意味・文脈コーパスの拡充:GENIAコーパスの事象アノテーションを9クラスの事象から32クラスに拡張し、生命オントロジー(GO)におけるたんぱく質関連の事象分類をすべて覆う作業が完了した。また、たんぱく質の共参照関係に特化して、参照関係アノテーションの質の向上を図った。(4)文解析を活用する機械翻訳システム:これまでの統計的機械翻訳は、文の構造的な側面を捨象するか、あるいは、非常にアドホックで浅い手法で文の構造を翻訳モデルに統合していた。これに対して、深い文解析の結果を使う統計モデルを開発し、従来モデルのBlue値を2以上改善することに成功した。(5)大規模クラスターを活用した言語処理ワークフロー:Unixで使われるmakeをそのまま大規模な分散環境で使うことができるワークフロー記述言語(GXP)を開発し、これを使って、文境界認識・品詞付・文解析・固有名認識・事象認識.意味インデキシングという複雑な言語処理ワークフローを記述し、その自動実行が可能なことを大規模な実験(Medlineの1000万抄録の処理)で実証した。
すべて 2010 2009 その他
すべて 雑誌論文 (21件) (うち査読あり 20件) 学会発表 (7件) 図書 (1件) 備考 (1件)
Journal of Bioinformatics and Computational Biology (JBCB)
巻: 8(1) ページ: 131-146
情報処理学会論文誌:プログラミング
巻: 3(1) ページ: 1-40
Journal of Natural Language Processing (Special Issue on Empirical Methods for Asian Language Processing)
巻: 17(3) ページ: 61-80
Bioinformatics
巻: 26(9) ページ: 1246-1253
巻: 26(5) ページ: 661-667
Proceedings of the Seventh Conference on International Language Resources and Evaluation (LREC'10)
ページ: 1876-1880
ページ: 428-434
Proceedings of 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT'10)
巻: 26(12) ページ: i374-i381
Machine Translation (Special Issue : Pushing the frontiers of SMT)
巻: 24(2) ページ: 141-157
Proceedings of the 19th ACM International Symposium on High Performance Distributed Computing (HPDC 2010)
ページ: 37-48
Proceedings of the Third International Workshop on Data Intensive Distributed Computing (DIDC 2010)
ページ: 746-755
Trends in Biotechnology
巻: 28(7) ページ: 381-390
Transactions on Computational Biology and Bioinformatics (TCBB), BioCreative II. 5 Special Issue.
巻: 7 ページ: 46
Proceedings of The 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010)
ページ: 325-334
Proceedings of the 2010 Workshop on Biomedlcal Natural Language Processing (BioNLP2010)
ページ: 19-27
Proceedings of the 2010 Workshop on Biomedical Natural Language Processing (BioNLP2010)
ページ: 37-45
ページ: 132-140
Proceedings of the 4th Linguistic Annotation Workshop
ページ: 123-126
Journal of Natural Language Processing
巻: 16(5) ページ: 51-77
BMC Bioinformatics
巻: 10(403)
http://www-tsujii.is.s.u-tokyo.ac.jp/index-j.html