• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

Webテキストからの知識抽出支援システムに関する研究

研究課題

研究課題/領域番号 17200007
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 米澤 明憲  東京大学, 情報理工学系研究科, 教授 (00133116)
辻井 潤一  東京大学, 大学院情報学環, 教授 (20026313)
田浦 健次朗  東京大学, 情報理工学系研究科, 助教授 (90282714)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
キーワードWWW / Trie / n-gram / 情報検索 / インデキシング / 用語抽出 / 自然言語処理 / 用例
研究概要

(1)多言語用例検索システム:Webテキストからの知識抽出の目的で、検索エンジンAltaVistaに入力した質問テキストを含む結果をTrie構造化し、類似文字列をまとめあげ、その頻度とlog(文字列長)の積の大きさに順に並べて表示する用例検索システムKiwiを開発し、Webで公開した。例えば、take itというフレーズに後続する頻出文字列として、easy, back, with, to the limit, off, away, or leave it,などの成句を得ることができる。Kiwiは、統計的文字列処理システムなので、任意の言語に対応できる。実際、日本語、英語、中国語、フランス語などで有益な用例を検索できることを確認した。このシステムはWorld Wide Web会議にて論文が採択された。
(2)カタカナ異表記抽出:Webテキストの検索においてカタカナ表記された外来語を検索するとき、「ギリシャ」と「ギリシア」のような複数の異表記が問題となる。異表記を扱えないと、検索エンジンでのカタカナ語による検索では、本来見つかるべき結果を見逃すことになる。そこで、Web上にあるテキスト情報、具体的には英日辞書サイトからの情報収集を行い、その結果を利用して異表記集合を取り出した。さらに、このデータを解析して、異表記を作り出しやすい文字列ペアを重み付けして抽出した。この文字列ペアを利用して、与えられたカタカナ語が異表記かどうかを判定するシステムを構築した。90%以上の精度で異表記を認識できた。このシステムについての論文がACM SIGIR会議にて採択された。
(3)その他:(3-1)Web上に公開されているテキストから、文末の言い換え表現を自動抽出した。(3-2)既開発の用語抽出システム「言選Web」を情報論的に精密なパープレキシティによって精緻化した。

  • 研究成果

    (6件)

すべて 2005

すべて 雑誌論文 (6件)

  • [雑誌論文] Webと携帯端末向けの新聞記事の対応コーパスからの文末言い換え抽出2005

    • 著者名/発表者名
      岩越守孝, 増田英孝, 中川裕志
    • 雑誌名

      自然言語処理 12・4

      ページ: 157-184

  • [雑誌論文] Kiwi:多言語用例検索システム2005

    • 著者名/発表者名
      中川裕志
    • 雑誌名

      漢字文献情報処理研究 6号

      ページ: 116-123

  • [雑誌論文] A Multilingual Usage Consultation Tool based on Internet Searching ---More than search engine, Less than QA2005

    • 著者名/発表者名
      Kumiko Tanaka-Ishii, Hiroshi Nakagawa
    • 雑誌名

      The Proceedings of 14th International World Wide Web Conference WWW2005

      ページ: 363-371

  • [雑誌論文] Web-based Acquisition of Japanese Katakana Variants2005

    • 著者名/発表者名
      Takeshi Masuyama, Hiroshi Nakagawa
    • 雑誌名

      The 28th Annual International ACM SIGIR Conference SIGIR2005

      ページ: 338-344

  • [雑誌論文] Specification Retrieval - How to Find Attribute-Value Information on the Web2005

    • 著者名/発表者名
      Minoru Yoshida, Hiroshi Nakagawa
    • 雑誌名

      Lecture Notes in Computer Science(Springer) 3248

      ページ: 338-347

  • [雑誌論文] Automatic Term Extraction based on Perplexity of Compound Words2005

    • 著者名/発表者名
      Minoru Yoshida, Hiroshi Nakagawa
    • 雑誌名

      Lecture Notes in Artificial Intelligence(Springer) 3651

      ページ: 269-279

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi