多言語Webテキストからの知識マイニングに関する研究
Project/Area Number |
18049011
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
二宮 崇 東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔 東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司 東京大学, 情報基盤センター, 助手 (10401316)
|
Project Period (FY) |
2006
|
Project Status |
Completed (Fiscal Year 2006)
|
Budget Amount *help |
¥5,900,000 (Direct Cost: ¥5,900,000)
Fiscal Year 2006: ¥5,900,000 (Direct Cost: ¥5,900,000)
|
Keywords | 多言語 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ |
Research Abstract |
表記の研究テーマを推進するにあたっては,大量ないし多様なテキストを処理する必要がある.本年度は,このような目的に沿って,以下の基本的テキスト処理技術の探求,Webテキスト処理ツールの開発を行った. (1)大量のWebテキストから比較的軽い処理で知識の候補となるイベントを網羅的に抽出する半構造マイニングの手法を考案して,実装した.知識抽出にあたって、文の係り受け構造を,文節をラベルとする節点を保持する木構造で表したのでは,助詞や表記上のぶれにより,節点数の少ない部分木が抽出されてしまう.そこで係り受け構造を表現する新しいデータ構造を提案し,そのデータ構造に対するマイニング手法を提案することで,上記の問題を解決した. (2)将来必要となる精密な知識をテキストから抽出するためのインフラストラクチャーとなるHPSG文法による構文解析システムの研究を行った.従来のモデルに比べ,提案した極語彙化モデルはほぼ同じ精度を達成しながら,4〜5倍程度の高速化に成功している.もうひとつの提案である合成モデルでは,従来のモデルにくらべ3〜4倍程度の高速化を達成しつつ,適合率および再現率がおよそ2ポイント向上している. (3)HTMLで書かれたHTML文書であるが,その構造であるレイアウト情報を教師なし学習で自動的に抽出するシステムを検討した. (4)既存のサーチエンジンを越える使い勝手を実現するために,Webテキストと伝統的な情報の宝庫である図書館を連携させる目的で,Web上の百科事典Wikipediaを仲介とする方法を考案した.具体的にはWebの世界と図書館の世界をWikipediaを介してつなぐことによって,両者の世界の利点を生かした情報探索を実現するための試作システムを構築した.
|
Report
(1 results)
Research Products
(6 results)