2009 Fiscal Year Annual Research Report
高度言語理解のための意味・知識処理の基盤技術に関する研究
Project/Area Number |
18002007
|
Research Institution | The University of Tokyo |
Principal Investigator |
辻井 潤一 東京大学, 大学院・情報理工学系研究科, 教授 (20026313)
|
Keywords | 言語理解 / 意味処理 / テキストマイニング / 文脈処理 / 知的検索 |
Research Abstract |
意味文脈を考慮し、かつ、大規模なテキスト集合を処理する基盤技術の確立を目指して、以下の研究成果を上げた。 (1)スーパータギングを中核にした文解析モデル:素性文法のためのスーパータギングの技術を開発し、段階的な文解析モデルを構築した。このモデルは、統合的な統計モデルに比べ、5倍から7倍の処理速度を持つことを確認した。 (2)生命事象認識システム:文解析の結果を素性として使い、従来の木構造カーネルと同様な精度をもち、かつ、高速度の認識ができるSVM分類器を作成し、これを文献からの生命事象認識システムに適用した。このシステムは、処理速度だけでなく、精度面でも国際コンペティション(ACL BioNLP)で24チーム中2位の性能を示した。 (3)意味・文脈コーパスの拡充:GENIAコーパスの事象アノテーションを9クラスの事象から32クラスに拡張し、生命オントロジー(GO)におけるたんぱく質関連の事象分類をすべて覆う作業が完了した。また、たんぱく質の共参照関係に特化して、参照関係アノテーションの質の向上を図った。 (4)文解析を活用する機械翻訳システム:これまでの統計的機械翻訳は、文の構造的な側面を捨象するか、あるいは、非常にアドホックで浅い手法で文の構造を翻訳モデルに統合していた。これに対して、深い文解析の結果を使う統計モデルを開発し、従来モデルのBlue値を2以上改善することに成功した。 (5)大規模クラスターを活用した言語処理ワークフロー:Unixで使われるmakeをそのまま大規模な分散環境で使うことができるワークフロー記述言語(GXP)を開発し、これを使って、文境界認識・品詞付・文解析・固有名認識・事象認識.意味インデキシングという複雑な言語処理ワークフローを記述し、その自動実行が可能なことを大規模な実験(Medlineの1000万抄録の処理)で実証した。
|
Research Products
(30 results)