2010 Fiscal Year Annual Research Report
高度言語理解のための意味・知識処理の基盤技術に関する研究
Project/Area Number |
18002007
|
Research Institution | The University of Tokyo |
Principal Investigator |
辻井 潤一 東京大学, 大学院・情報理工学系研究科, 教授 (20026313)
|
Keywords | 言語理解 / 意味処理 / テキストマイニング / 文脈処理 / 知的検索 |
Research Abstract |
意味文脈を考慮し、かつ、大規模なテキスト集合を処理する基盤技術の確立を目指した研究の最終年度として、あらたな研究成果を上げると同時に、最終的な大規模実験、および、広い研究者集団に成果を公開するためにソフトウェア・データの整備を行った。以下の研究を行った。 (1)スーバータギングの精度向上、意味の導入:局所的な情報のみを参照する従来のスーパータギングに浅い依存構造処理を統合することで、処理速度の劣化なしに精度を向上させることに成功した。現在の精度は、統合モデルよりも優れたものになっている。また、言語処理の初期段階であるタギング処理に意味を導入するモデルを構築した。 (2)事象認識システムとパスウェイモデルの統合:前年度に開発した事象認識モデルをさらに改良し現時点で世界最高の性能を示すシステムとした。このシステム(EventMine)を一般に公開した。また、認識された事象をより広範な生命事象ネットワーク(Pathway)に写像するシステムを構築した。 (3)GENIAコーパスの拡充と公開:英国マンチェスター大学、米国ヴァージニア工科大学と共同し、感染症関連の文献への意味アノテーションを行った。これは、たんぱく質関連に特化したこれまでのGENIAコーパスの範囲を大きく広げるものである。前年度に完成した32の事象アノテーションとこの感染症アノテーションを世界的に公開し、これをもとに国際的なコンペティション(BioNLP 2011)を組織した。コンペティションは、研究終了後の2011年6月に米国ポートランドで行われる。 (4)文解析を用いた機械翻訳:英語の深い文解析手法を中国語にも拡張し、中国語の深い文解析システムを完成した。この2つの文解析システムを使い、これまでのTree2Strngの統計翻訳システムをTree2treeシステムへと拡張した。また、英語と中国語の文解析システム、および、Tree2Treeの機械翻訳ソフトウェアを公開した。 (5)大規模言語処理システムの実験:前年度作成したワークフローを、英国マンチェスター大学と共同し抄録ではなく論文全文に適用する大規模な処理実験を行い、GXPが実用レベルの大規模処理に適用できることを実証した。実験では、8000以上の並列度(CPUコア数)が達成できることを確認した。
|
Research Products
(31 results)