2008 Fiscal Year Annual Research Report
高度言語理解のための意味・知識処理の基盤技術に関する研究
Project/Area Number |
18002007
|
Research Institution | The University of Tokyo |
Principal Investigator |
辻井 潤一 The University of Tokyo, 大学院・情報理工学系研究科, 教授 (20026313)
|
Keywords | 言語理解 / 意味処理 / テキストマイニング / 文脈処理 / 知的検索 |
Research Abstract |
本研究は、機械学習技術と記号処理アルゴリズムとを融合した手法を、意味・文脈・知識処理に適用することで、高度な言語処理技術の構築をめざしている。このために、本格的な意味知識処理を含む高度言語処理にとって必要な3つの基盤、(1) 構造に関する理論と確率・機械学習の理論を有機的に統合した理論、(2) 大規模な意味・知識リソース、(3) 大規模データを処理する計算環境を確立した上で、(4) 意味・知識処理技術の研究を系統的に行うことを目的としている。また、研究成果の有効性を実証できる応用システムとして、(5) 生命科学分野のテキストマイニングと高品質機械翻訳のシステムの開発を同時進行的に行なっている。平成20年度は、以下の研究をおこなった。 1. 深い文解析と意味知識処理:深い文解析を本格的な情報抽出(タンパク質相互作用の抽出)に適用し、従来のシステムの精度を格段に向上させた。深い解析が情報抽出に有効との結果を世界で最初に実証した。 2. 系列tagging学習器:隠れ変数を使った機械学習を言語処理へ適用し、深い文解析の速度を20倍向上させるとともに、固有名認識などの意味処理タスクでも、世界最高水準のパフォーマンスを達成した。 3. GENIAコーパス:構築したGENIAコーパスは、これを使った国際コンペティションに24チームが参加するなど、生命科学分野でのデ・ファクトの国際標準となっている。 4. U-Compare:言語処理ソフトウェア共有枠組み(U-Compare)は、世界で最大(組み込みツール40超)の共有枠組みとなっている。この研究は、UIMA Innovation AwardをIBM Watson研究所より受賞(2009年)。 5. 計算環境:並列処理の記述を殆どしなくてよい汎用的ワークフロー処理系、任意の計算資源の上に分散ファイルシステムを構築するシステムという、汎用性の高いデータ処理の枠組みを確立した。
|
Research Products
(40 results)