2010 Fiscal Year Annual Research Report

Web上のテキスト情報の信頼性と有益性の評価システムに関する研究

Publicly Offered Research

Project Area	Cyber Infrastructure for the Information-explosion Era
Project/Area Number	21013011
Research Institution	The University of Tokyo
Principal Investigator	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
Co-Investigator(Kenkyū-buntansha)	吉田稔東京大学, 情報基盤センター, 助教 (40361688) 清田陽司東京大学, 情報基盤センター, 特任講師 (10401316)
Keywords	Web / テキスト / 機械学習 / 曖昧生解消 / オンライン学習 / 人名検索 / 情報ナビゲーション
Research Abstract	1.Web情報資源と図書館の情報資源の統合的利用システム:Wikipediaのカテゴリ体系は、多様な観点を反映する集合知としての性質をもつ一方、図書館の分類体系などの学術用語体系との強いつながりをもっている。この特徴を生かし、Wikipediaに含まれる一般的なキーワードを起点に上記の分類体系を統合的に用い、様々な観点での調べ方を提示し、信頼性の高い情報資源に誘導するシステムを構築した。グラフのエッジに対する重みスコアをノード間の文字列類似度によって定義し、ビームサーチによって重みスコアが相対的に大きい件名を絞り込み、利用者にテーマグラフを表示する。情報爆発サーチ共通ユーザ評価の一環として、被験者(50名)による評価実験では50名中43名(86%)の被験者は、テーマグラフから検索に有用な何らかのヒントを得たと回答した。 2.オンライン学習:教師データ全体に対し最適化を行う学習手法はバッチ学習と呼ばれ、SVMやロジスティック回帰などが自然言語処理を含む多くの問題に対し用いられてきた。これに対し、教師データを逐次的に受け取り、学習を行う学習手法はオンライン学習と呼ばれる。本年度の研究では、(1)カテゴリ数が多い場合にも数学的に厳密で性能のよい逐次学習のアルゴリズムを考案した。この方法で一括学習と遜色ない分類精度を得た。(2)正解タグが付与されていない大量のテキストを活用して学習する方法を提案し、正解タグ付の教師データだけから学習する場合より5%程度性能が良くなることを示すことができた。

Research Products
(5 results)

All 2010 Other

All Journal Article (3 results) (of which Peer Reviewed: 3 results) Presentation (1 results) Remarks (1 results)

[Journal Article] PAアルゴリズムにおけるラベルなしデータの利用2010
- Author(s)
  松島慎, 佐藤一誠, 二宮崇, 中川裕志
- Journal Title
  
  日本データベース学会論文誌
  
  Volume: 9(1) Pages: 82-87
- Peer Reviewed
[Journal Article] 多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法2010
- Author(s)
  松島慎, 清水伸幸, 吉田和弘, 二宮崇, 中川裕志
- Journal Title
  
  電子情報通信学会論文誌
  
  Volume: J93-D(6) Pages: 724-732
- Peer Reviewed
[Journal Article] Spectral Methods and Text Mining : Automatic Expansion of User2010
- Author(s)
  Nobuyuki Shimizu, Masashi Sugiyama, Hiroshi Nakagawa
- Journal Title
  
  Institute of Electronics, Information and Communication Engineers, Transactions
  
  Volume: E93-D(6) Pages: 1378-1385
- Peer Reviewed
[Presentation] Exact Passive-Aggressive Algorithm for Multiclass Classification Using Support Class2010
- Author(s)
  Shin Matsushima
- Organizer
  SIAM International Conference on Data Mining
- Place of Presentation
  Columbux, Ohio, U.S.A
- Year and Date
  2010-04-29
[Remarks]
- URL
  http://www.infoplosion.nii.ac.jp/info-plosion/ctr.php/m/Index/a/Group/id/2/

2010 Fiscal Year Annual Research Report

Web上のテキスト情報の信頼性と有益性の評価システムに関する研究

Principal Investigator

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

Research Products

[Journal Article] PAアルゴリズムにおけるラベルなしデータの利用2010

Author(s)

Journal Title

[Journal Article] 多クラス識別問題におけるPassive-Aggressiveアルゴリズムの効率的厳密解法2010

Author(s)

Journal Title

[Journal Article] Spectral Methods and Text Mining : Automatic Expansion of User2010

Author(s)

Journal Title

[Presentation] Exact Passive-Aggressive Algorithm for Multiclass Classification Using Support Class2010

Author(s)

Organizer

Place of Presentation

Year and Date

[Remarks]

URL

中川裕志東京大学, 情報基盤センター, 教授 (20134893)