• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

Web上のテキスト情報の信頼性と有益性の評価システムに関する研究

公募研究

研究領域情報爆発時代に向けた新しいIT基盤技術の研究
研究課題/領域番号 21013011
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 吉田 稔  東京大学, 情報基盤センター, 助教 (40361688)
清田 陽司  東京大学, 情報基盤センター, 特任講師 (10401316)
研究期間 (年度) 2009 – 2010
研究課題ステータス 完了 (2010年度)
配分額 *注記
10,000千円 (直接経費: 10,000千円)
2010年度: 5,000千円 (直接経費: 5,000千円)
2009年度: 5,000千円 (直接経費: 5,000千円)
キーワードWeb / テキスト / 機械学習 / 曖昧生解消 / オンライン学習 / 人名検索 / 情報ナビゲーション / Wikipedia / 情報抽出 / 有益性 / 信頼性 / 意外性
研究概要

1.Web情報資源と図書館の情報資源の統合的利用システム:Wikipediaのカテゴリ体系は、多様な観点を反映する集合知としての性質をもつ一方、図書館の分類体系などの学術用語体系との強いつながりをもっている。この特徴を生かし、Wikipediaに含まれる一般的なキーワードを起点に上記の分類体系を統合的に用い、様々な観点での調べ方を提示し、信頼性の高い情報資源に誘導するシステムを構築した。グラフのエッジに対する重みスコアをノード間の文字列類似度によって定義し、ビームサーチによって重みスコアが相対的に大きい件名を絞り込み、利用者にテーマグラフを表示する。情報爆発サーチ共通ユーザ評価の一環として、被験者(50名)による評価実験では50名中43名(86%)の被験者は、テーマグラフから検索に有用な何らかのヒントを得たと回答した。
2.オンライン学習:教師データ全体に対し最適化を行う学習手法はバッチ学習と呼ばれ、SVMやロジスティック回帰などが自然言語処理を含む多くの問題に対し用いられてきた。これに対し、教師データを逐次的に受け取り、学習を行う学習手法はオンライン学習と呼ばれる。本年度の研究では、(1)カテゴリ数が多い場合にも数学的に厳密で性能のよい逐次学習のアルゴリズムを考案した。この方法で一括学習と遜色ない分類精度を得た。(2)正解タグが付与されていない大量のテキストを活用して学習する方法を提案し、正解タグ付の教師データだけから学習する場合より5%程度性能が良くなることを示すことができた。

報告書

(2件)
  • 2010 実績報告書
  • 2009 実績報告書
  • 研究成果

    (20件)

すべて 2010 2009 その他

すべて 雑誌論文 (7件) (うち査読あり 6件) 学会発表 (10件) 図書 (1件) 備考 (2件)

  • [雑誌論文] PAアルゴリズムにおけるラベルなしデータの利用2010

    • 著者名/発表者名
      松島慎, 佐藤一誠, 二宮崇, 中川裕志
    • 雑誌名

      日本データベース学会論文誌

      巻: 9(1) ページ: 82-87

    • 関連する報告書
      2010 実績報告書
    • 査読あり
  • [雑誌論文] 多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法2010

    • 著者名/発表者名
      松島慎, 清水伸幸, 吉田和弘, 二宮崇, 中川裕志
    • 雑誌名

      電子情報通信学会論文誌

      巻: J93-D(6) ページ: 724-732

    • NAID

      110007618347

    • 関連する報告書
      2010 実績報告書
    • 査読あり
  • [雑誌論文] Spectral Methods and Text Mining : Automatic Expansion of User2010

    • 著者名/発表者名
      Nobuyuki Shimizu, Masashi Sugiyama, Hiroshi Nakagawa
    • 雑誌名

      Institute of Electronics, Information and Communication Engineers, Transactions

      巻: E93-D(6) ページ: 1378-1385

    • 関連する報告書
      2010 実績報告書
    • 査読あり
  • [雑誌論文] Predicting the Difficulty of Multiple-Choice Close Questions for Computer-Adaptive Testing2010

    • 著者名/発表者名
      Ayako Hoshino, Hiroshi Nakagawa
    • 雑誌名

      Research in Computing Science Special Issue

      ページ: 279-292

    • 関連する報告書
      2009 実績報告書
    • 査読あり
  • [雑誌論文] Wikipedia を活用した新たな情報ナビゲーションシステムの提案2010

    • 著者名/発表者名
      清田陽司
    • 雑誌名

      薬学図書館, 日本薬学図書館協議会 編 55(1)

      ページ: 51-59

    • 関連する報告書
      2009 実績報告書
  • [雑誌論文] Exploitation of the Wikipedia Category System for Enhancing the Value of LCSH, pp.411-4122010

    • 著者名/発表者名
      Yoji Kiyota, Hiroshi Nakagawa
    • 雑誌名

      Toint Conference of Digital Library : JCDL 2009 9

      ページ: 411-412

    • 関連する報告書
      2009 実績報告書
    • 査読あり
  • [雑誌論文] コーパス検索支援のための動的同義語候補抽出2009

    • 著者名/発表者名
      吉田稔、中川裕志、寺田昭
    • 雑誌名

      人工知能学会論文誌 25

      ページ: 122-132

    • NAID

      130000151243

    • 関連する報告書
      2009 実績報告書
    • 査読あり
  • [学会発表] Exact Passive-Aggressive Algorithm for Multiclass Classification Using Support Class2010

    • 著者名/発表者名
      Shin Matsushima
    • 学会等名
      SIAM International Conference on Data Mining
    • 発表場所
      Columbux, Ohio, U.S.A
    • 年月日
      2010-04-29
    • 関連する報告書
      2010 実績報告書
  • [学会発表] ネットワーク構造を利用した Wikipedia からの意外性のある情報の抽出2010

    • 著者名/発表者名
      野田陽平
    • 学会等名
      情報処理学会 第72回全国大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-09
    • 関連する報告書
      2009 実績報告書
  • [学会発表] Wikipedia における言語間の差異マイニング2010

    • 著者名/発表者名
      森竜也
    • 学会等名
      情報処理学会 第72回全国大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-09
    • 関連する報告書
      2009 実績報告書
  • [学会発表] Wikipedia を活用した言語間差異比較システムの提案2010

    • 著者名/発表者名
      森竜也
    • 学会等名
      第2回データ工学と情報マネジメントに関するフォーラム/第8回日本データベース学会年次大会(DEIM2010)
    • 発表場所
      淡路夢舞台国際会議場
    • 年月日
      2010-03-01
    • 関連する報告書
      2009 実績報告書
  • [学会発表] Apache Hadoop による大規模データの研究活用事例2010

    • 著者名/発表者名
      清田陽司
    • 学会等名
      産学連携共同研究シンポジウム「クラウド・コンピューティングと大学発ベンチャー」, 東京大学産学連携本部
    • 発表場所
      東京大学
    • 年月日
      2010-01-21
    • 関連する報告書
      2009 実績報告書
  • [学会発表] 国立国会図書館リサーチ・ナビにおけるテーマグラフの生成2009

    • 著者名/発表者名
      清田陽司
    • 学会等名
      情報処理学会第96回情報学基礎研究会(FI-96-5)
    • 発表場所
      秋葉原ダイビル
    • 年月日
      2009-11-19
    • 関連する報告書
      2009 実績報告書
  • [学会発表] リサーチ・ナビ検索システムの技術2009

    • 著者名/発表者名
      清田陽司
    • 学会等名
      第11回図書館総合展/学術情報オープンサミット2009フォーラム企画, 国立国会図書館主催
    • 発表場所
      パシフィコ横浜, 横浜市
    • 年月日
      2009-11-10
    • 関連する報告書
      2009 実績報告書
  • [学会発表] 学生向けレファレンス支援ツールの可能性2009

    • 著者名/発表者名
      清田陽司
    • 学会等名
      第11回図書館総合展/学術情報オープンサミット2009 ミニ・フォーラム&プレゼンテーション企画, 紀伊國屋書店主催
    • 発表場所
      パシフィコ横浜, 横浜市
    • 年月日
      2009-11-10
    • 関連する報告書
      2009 実績報告書
  • [学会発表] Wikipedia からの意外性のある情報の抽出2009

    • 著者名/発表者名
      野田陽平
    • 学会等名
      NLP若手の会 第4回シンポジウム
    • 発表場所
      京都大学
    • 年月日
      2009-09-30
    • 関連する報告書
      2009 実績報告書
  • [学会発表] 言語に展開する Wikipedia の特性調査2009

    • 著者名/発表者名
      森竜也
    • 学会等名
      NLP若手の会第4回シンポジウム
    • 発表場所
      京都大学
    • 年月日
      2009-09-30
    • 関連する報告書
      2009 実績報告書
  • [図書] 言語処理学事典(「言語処理概観」の項目)2009

    • 著者名/発表者名
      中川裕志
    • 出版者
      共立出版
    • 関連する報告書
      2009 実績報告書
  • [備考]

    • URL

      http://www.infoplosion.nii.ac.jp/info-plosion/ctr.php/m/Index/a/Group/id/2/

    • 関連する報告書
      2010 実績報告書
  • [備考] Web人名検索システム

    • URL

      http://ianua7.r.dl.itc.u-tokyo.ac.jp:8080/nayose/servlet/Nayose

    • 関連する報告書
      2009 実績報告書

URL: 

公開日: 2009-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi