Co-Investigator(Kenkyū-buntansha) |
荒牧 英治 東京大学, 知の構造化センター, 特任講師 (70401073)
岡 瑞起 東京大学, 知の構造化センター, 特任研究員 (10512105)
増田 勝也 東京大学, 知の構造化センター, 特任研究員 (20512114)
松尾 豊 東京大学, 大学院・工学系研究科 総合研究機構, 准教授 (30358014)
|
Research Abstract |
21年度においては,計画通り「情報の信頼性」と「スケーラビリティ」を重点的に研究開発した.特に,信頼性向上に関しては,大規模テストコレクションを作成したことにより,情報の信頼性の評価をより客観的に行うことができるようになったことが重要な成果である.また,正解集合としてテストコレクションを用意することで,リンク共起性解析などの素性を利用した機械学習手法の適用が可能となり,より高い精度を実現できた.重要な素性の組み合わせを発見することができることから,計算量を押さえつつ,精度を向上するための素性の組み合わせを調べることができた.スケーラビリティについては,主に自然言語処理がボトルネックになるため,PCクラスタを利用した自然言語処理とリンク構造解析の分散処理を実現するルーチンの開発を進めた.PCクラスタを利用した分散環境における自然言語解析も,効率的な方法が確立できた.また,計画では多様な情報との融合に関する研究も本年度に一部推進する予定であったが,こちらも計画通りに進めた.特に,Web情報との融合に関しては,格助詞を利用したWeb検索によって意味情報を抽出する方法を提案・実装し,評価することができた. これらの研究成果は,次年度以降の研究開発において重要なステップとなる.特に,スケーラビリティの高い解析手法とWeb情報との融合は,次年度の研究開発を進める上で大きな助けとなることが期待される.また,大規模テストコレクションは,我々の研究だけでなく,他の研究者が利用できる基盤リソースとして提供されることから,当該分野の研究促進に貢献できるのではないかと期待される.
|