研究課題/領域番号 |
17200007
|
研究種目 |
基盤研究(A)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
知能情報学
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
米澤 明憲 東京大学, 情報理工学系研究科, 教授 (00133116)
田浦 健次朗 東京大学, 情報理工学系研究科, 准教授 (90282714)
二宮 崇 東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助教 (10401316)
辻井 潤一 東京大学, 大学院情報学環, 教授 (20026313)
|
研究期間 (年度) |
2005 – 2007
|
研究課題ステータス |
完了 (2007年度)
|
配分額 *注記 |
43,420千円 (直接経費: 33,400千円、間接経費: 10,020千円)
2007年度: 13,910千円 (直接経費: 10,700千円、間接経費: 3,210千円)
2006年度: 13,910千円 (直接経費: 10,700千円、間接経費: 3,210千円)
2005年度: 15,600千円 (直接経費: 12,000千円、間接経費: 3,600千円)
|
キーワード | WWW / 知識 / テキスト / マイニング / 用例検索 / 名寄せ / 用語抽出 / 機械学習 / 検索 / テキストマイニング / 半構造テキスト / ブログ / Trie / n-gram / 情報検索 / インデキシング / 自然言語処理 / 用例 |
研究概要 |
本研究においては、膨大な量のWebページから、利用者が興味を持つ分野の知識を記述するテキストを抽出し表示するシステムを開発した。具体的には、以下のようなシステムを提案しプロトタイプおよび実用的なシステムを開発した。(1)利用者の検索エンジンなどで検索し指定したWebページから、既開発の用語抽出システム「言選Wbb」を用いて、そのページを特徴つける重要語を抽出するシステム。(2)こうして抽出した重要語集合の中から、その定義、あるいは複数の重要語の間の関係を知ることを目的とし、Webからの用例検索システムKiwiを利用して、それらの重要語を含む用例文を多数抽出するシステム。(3)ただし、(2)においてWebを直接に検索する従来の用例検索システムを、高速化するために、既存クローラで収集したWebページを対象にする新たな用例検索システムを開発し、UT-Kiwiとして公開した。(4)上記の用例検索の精度の向上を目的とし、同一名が異なる実体を参照する場合、別名が同一実体を参照する場合を解消するWeb名寄せのメカニズムを提案し、試作システムNayoseを構築した。(5)Webテキスト情報からの知識抽出の基礎となる機械学習アルゴリズムを開発した。(6)Webテキストの活用の狙って、Web上の英文テキストから穴埋め4択問題を自動生成するシステムSakumonを開発した。
|