• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

多言語Webテキストからの知識マイニングに関する研究

研究課題

研究課題/領域番号 18049011
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 二宮 崇  東京大学, 情報基盤センター, 講師 (20444094)
吉田 稔  東京大学, 情報基盤センター, 助手 (40361688)
清田 陽司  東京大学, 情報基盤センター, 助手 (10401316)
研究期間 (年度) 2006
研究課題ステータス 完了 (2006年度)
配分額 *注記
5,900千円 (直接経費: 5,900千円)
2006年度: 5,900千円 (直接経費: 5,900千円)
キーワード多言語 / WWW / 機械学習 / 知識 / テキストマイニング / 用語抽出 / 半構造テキスト / ブログ
研究概要

表記の研究テーマを推進するにあたっては,大量ないし多様なテキストを処理する必要がある.本年度は,このような目的に沿って,以下の基本的テキスト処理技術の探求,Webテキスト処理ツールの開発を行った.
(1)大量のWebテキストから比較的軽い処理で知識の候補となるイベントを網羅的に抽出する半構造マイニングの手法を考案して,実装した.知識抽出にあたって、文の係り受け構造を,文節をラベルとする節点を保持する木構造で表したのでは,助詞や表記上のぶれにより,節点数の少ない部分木が抽出されてしまう.そこで係り受け構造を表現する新しいデータ構造を提案し,そのデータ構造に対するマイニング手法を提案することで,上記の問題を解決した.
(2)将来必要となる精密な知識をテキストから抽出するためのインフラストラクチャーとなるHPSG文法による構文解析システムの研究を行った.従来のモデルに比べ,提案した極語彙化モデルはほぼ同じ精度を達成しながら,4〜5倍程度の高速化に成功している.もうひとつの提案である合成モデルでは,従来のモデルにくらべ3〜4倍程度の高速化を達成しつつ,適合率および再現率がおよそ2ポイント向上している.
(3)HTMLで書かれたHTML文書であるが,その構造であるレイアウト情報を教師なし学習で自動的に抽出するシステムを検討した.
(4)既存のサーチエンジンを越える使い勝手を実現するために,Webテキストと伝統的な情報の宝庫である図書館を連携させる目的で,Web上の百科事典Wikipediaを仲介とする方法を考案した.具体的にはWebの世界と図書館の世界をWikipediaを介してつなぐことによって,両者の世界の利点を生かした情報探索を実現するための試作システムを構築した.

報告書

(1件)
  • 2006 実績報告書
  • 研究成果

    (6件)

すべて 2007 2006

すべて 雑誌論文 (6件)

  • [雑誌論文] 中文版言選Web的評価与分析2007

    • 著者名/発表者名
      王玉馨, 小島浩之, 中川裕志, 前田朗
    • 雑誌名

      文学与信息技術国際検討会論文集 第三届

      ページ: 39-44

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Fast and scalable HPSG parsing2006

    • 著者名/発表者名
      Takashi Ninomiya, et al.
    • 雑誌名

      Journal of Traitement Automatique des Langues 46(2)

      ページ: 91-114

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Extremely Lexicalized Models for Accurate and Fast HPSG Parsing2006

    • 著者名/発表者名
      Takashi Ninomiya, et al.
    • 雑誌名

      Proc. of EMNLP 2006

      ページ: 155-163

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] A Domain Ontology Production Tool Kit Based on Automatically Constructed Case Frames2006

    • 著者名/発表者名
      Youji Kiyota, Hiroshi Nakagawa
    • 雑誌名

      Proc. of LREC 2006

      ページ: 1482-1487

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] 係り受け関係を考慮したテキストマイニングのための半構造マイニング手法の提案2006

    • 著者名/発表者名
      佐藤 一誠, 中川 裕志
    • 雑誌名

      日本データベース学会Letters 5 (2)

      ページ: 53-56

    • NAID

      110004833185

    • 関連する報告書
      2006 実績報告書
  • [雑誌論文] Browsing System for Weblog Articles based on Automated Folksonomy2006

    • 著者名/発表者名
      Tsutomu Ohkura, Youji Kiyota, Hiroshi Nakagawa
    • 雑誌名

      WWW2006 Workshop on the Weblogging Ecosystem

    • 関連する報告書
      2006 実績報告書

URL: 

公開日: 2006-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi