• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2005 Fiscal Year Annual Research Report

Webテキストからの知識抽出支援システムに関する研究

Research Project

Project/Area Number 17200007
Research InstitutionThe University of Tokyo

Principal Investigator

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

Co-Investigator(Kenkyū-buntansha) 米澤 明憲  東京大学, 情報理工学系研究科, 教授 (00133116)
辻井 潤一  東京大学, 大学院情報学環, 教授 (20026313)
田浦 健次朗  東京大学, 情報理工学系研究科, 助教授 (90282714)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
KeywordsWWW / Trie / n-gram / 情報検索 / インデキシング / 用語抽出 / 自然言語処理 / 用例
Research Abstract

(1)多言語用例検索システム:Webテキストからの知識抽出の目的で、検索エンジンAltaVistaに入力した質問テキストを含む結果をTrie構造化し、類似文字列をまとめあげ、その頻度とlog(文字列長)の積の大きさに順に並べて表示する用例検索システムKiwiを開発し、Webで公開した。例えば、take itというフレーズに後続する頻出文字列として、easy, back, with, to the limit, off, away, or leave it,などの成句を得ることができる。Kiwiは、統計的文字列処理システムなので、任意の言語に対応できる。実際、日本語、英語、中国語、フランス語などで有益な用例を検索できることを確認した。このシステムはWorld Wide Web会議にて論文が採択された。
(2)カタカナ異表記抽出:Webテキストの検索においてカタカナ表記された外来語を検索するとき、「ギリシャ」と「ギリシア」のような複数の異表記が問題となる。異表記を扱えないと、検索エンジンでのカタカナ語による検索では、本来見つかるべき結果を見逃すことになる。そこで、Web上にあるテキスト情報、具体的には英日辞書サイトからの情報収集を行い、その結果を利用して異表記集合を取り出した。さらに、このデータを解析して、異表記を作り出しやすい文字列ペアを重み付けして抽出した。この文字列ペアを利用して、与えられたカタカナ語が異表記かどうかを判定するシステムを構築した。90%以上の精度で異表記を認識できた。このシステムについての論文がACM SIGIR会議にて採択された。
(3)その他:(3-1)Web上に公開されているテキストから、文末の言い換え表現を自動抽出した。(3-2)既開発の用語抽出システム「言選Web」を情報論的に精密なパープレキシティによって精緻化した。

  • Research Products

    (6 results)

All 2005

All Journal Article (6 results)

  • [Journal Article] Webと携帯端末向けの新聞記事の対応コーパスからの文末言い換え抽出2005

    • Author(s)
      岩越守孝, 増田英孝, 中川裕志
    • Journal Title

      自然言語処理 12・4

      Pages: 157-184

  • [Journal Article] Kiwi:多言語用例検索システム2005

    • Author(s)
      中川裕志
    • Journal Title

      漢字文献情報処理研究 6号

      Pages: 116-123

  • [Journal Article] A Multilingual Usage Consultation Tool based on Internet Searching ---More than search engine, Less than QA2005

    • Author(s)
      Kumiko Tanaka-Ishii, Hiroshi Nakagawa
    • Journal Title

      The Proceedings of 14th International World Wide Web Conference WWW2005

      Pages: 363-371

  • [Journal Article] Web-based Acquisition of Japanese Katakana Variants2005

    • Author(s)
      Takeshi Masuyama, Hiroshi Nakagawa
    • Journal Title

      The 28th Annual International ACM SIGIR Conference SIGIR2005

      Pages: 338-344

  • [Journal Article] Specification Retrieval - How to Find Attribute-Value Information on the Web2005

    • Author(s)
      Minoru Yoshida, Hiroshi Nakagawa
    • Journal Title

      Lecture Notes in Computer Science(Springer) 3248

      Pages: 338-347

  • [Journal Article] Automatic Term Extraction based on Perplexity of Compound Words2005

    • Author(s)
      Minoru Yoshida, Hiroshi Nakagawa
    • Journal Title

      Lecture Notes in Artificial Intelligence(Springer) 3651

      Pages: 269-279

URL: 

Published: 2007-04-02   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi