研究課題/領域番号 |
18002007
|
研究種目 |
特別推進研究
|
配分区分 | 補助金 |
審査区分 |
理工系
工学
|
研究機関 | 東京大学 |
研究代表者 |
辻井 潤一 東京大学, 大学院・情報理工学系研究科, 教授 (20026313)
|
研究分担者 |
米澤 明憲 東京大学, 大学院・情報理工学研究科, 教授 (00133116)
田浦 健次朗 東京大学, 大学院・情報理工学研究科, 准教授 (90282714)
宮尾 祐介 東京大学, 大学院・情報理工学研究科, 助教 (00343096)
松崎 拓也 東京大学, 大学院・情報理工学研究科, 助教 (40463872)
|
研究協力者 |
狩野 芳伸 東京大学, 大学院・情報学環, 特任研究員
大田 朋子 東京大学, 大学院・情報学環, 特任研究員
SAETRE Rune 東京大学, 大学院・情報学環, 特任研究員
柴田 剛志 東京大学, 大学院・情報学環, 特任研究員
三輪 誠 東京大学, 大学院・情報学環, 特任研究員
PYYSALO SAMPO Mikael 東京大学, 大学院・情報学環, 特任研究員
金 進東 東京大学, 大学院・情報学環, 特任講師
SAGAE Kenji 東京大学, 大学院・情報理工学系研究科, 特任研究員
SAGAE T. Alicia 東京大学, 大学院・情報理工学系研究科, リサーチアシスタント
王 向莉 東京大学, 大学院・情報理工学系研究科, 特任研究員
綱川 隆司 東京大学, 大学院・情報理工学系研究科, 特任研究員
原 忠義 東京大学, 大学院・情報学環, 特任研究員
|
研究期間 (年度) |
2006 – 2010
|
研究課題ステータス |
完了 (2010年度)
|
配分額 *注記 |
499,330千円 (直接経費: 384,100千円、間接経費: 115,230千円)
2010年度: 95,030千円 (直接経費: 73,100千円、間接経費: 21,930千円)
2009年度: 103,220千円 (直接経費: 79,400千円、間接経費: 23,820千円)
2008年度: 101,010千円 (直接経費: 77,700千円、間接経費: 23,310千円)
2007年度: 104,910千円 (直接経費: 80,700千円、間接経費: 24,210千円)
2006年度: 95,160千円 (直接経費: 73,200千円、間接経費: 21,960千円)
|
キーワード | 言語理解 / 意味処理 / テキストマイニング / 文脈処理 / 知的検索 |
研究概要 |
本研究は、文解析研究で成功してきた手法、すなわち、巨大な文書集合を使った機械学習技術と記号処理アルゴリズムとを融合する手法を、意味・文脈・知識処理に適用することで、言語処理技術にブレークスルーをもたらすことを目標として研究を遂行した。この結果、(1)言語理論に基づく深い文解析の高速で高耐性なシステムの開発、(2)意味・知識処理のための大規模付記コーパス(GENIAコーパス)の構築と公開、(3)深い文解析の結果を用いた固有名、事象認識などの意味・知識処理手法の開発、(4)大規模なテキスト集合の意味・知識処理を行うためのクラウド処理用ソフトウェアシステムの開発、において世界水準の成果を上げた。 (2)で構築されたGENIAコーパスは、生命科学分野でのテキストマイニング研究のための標準データ(Gold Standard)として、国際コンペティション(BioNLP09、BioNLP11)の訓練・テスト用のデータとして、採用された。また、(1)の研究成果と機械学習とを組み合わせた(3)の成果は、これらのコンペティションで高い成績を収めている。また、(1)と(4)の成果により、Medlineの論文抄録データベース(2千万件、2億超の文)からの事象認識と固有名認識を数日で完了できることを実証した。その成果は、意味処理に基づく知的な文献検索システム(MEDIE)として公開されている。
|