2008 年度実績報告書

個々のWebサイトが持つ情報の特性を考慮した多角的意見集約・分析の研究

研究課題

研究課題/領域番号	19024002
研究機関	北海道大学
研究代表者	吉岡真治北海道大学, 大学院・情報科学研究科, 准教授 (40290879)
研究分担者	原口誠北海道大学, 大学院・情報科学研究科, 教授 (40128450) 大久保好章北海道大学, 大学院・情報科学研究科, 助教 (40271639)
キーワード	情報検索 / テキストマイニング / クラスタリング / フォーマルコンセプト
研究概要	本研究では、情報抽出元である各々のWebサイトが持つ情報の偏りなどの特徴を分析する方法を提案すると共に、この特徴分析の結果を踏まえた意見集約・分析の方法を提案している。具体的には、全てのデータセットを含む全体のデータベースと特定の条件を満たす部分データベースにおけるデータの分布の違いに注目したコントラストセットマイニングを適用することにより、個々のサイトの特徴を分析する方法を提案する。この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」の考え方に基づくシステムを実装し、様々なレベルのユーザ実験を通した評価を行った。簡単にシステムを使用してもらってコメントをもらうというユーザ実験では、半数以上の利用者から、システムが有用であるというコメントをもらえた。一方、レポート作成課題の実施という本システムの利用目的に応じた課題の遂行という実験を行ったところ、異なる国のデータとの比較を行う際には、外国語の新聞を直接の比較対象とする必要性などが指摘された。この指摘を受け、機械翻訳システムと組み合わせることによりシステムを作成した。このシステムでは、ニュースなどの時事的なトピックに対する対訳辞書の不備を補うためのWikipediaを用いた対訳辞書の作成方法などの提案も行った。また、ピンポイントクラスタリングによるWebサイトの分析」の課題については、昨年度から継続して、フォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。

研究成果
(7件)

すべて 2009 2008

すべて雑誌論文 (2件) (うち査読あり 1件) 学会発表 (5件)

[雑誌論文] 情報爆発時代におけるわくわくするITの創出を目指して : パートI : 情報爆発時代における新しい基盤技術 : 1. キーワードサーチを超える情報爆発サーチ・自然言語処理で価値ある未知をマイニング・2008
- 著者名/発表者名
  鳥澤健太郎, 中川裕志, 黒橋禎夫, 乾健太郎, 吉岡真治, 藤井敦, 喜連川優
- 雑誌名
  
  情報処理学会論文誌 49(8)
  
  ページ: 12-18
[雑誌論文] IR Interface for Contrasting Multiple News Sites2008
- 著者名/発表者名
  Masaharu Yoshioka
- 雑誌名
  
  InfbrmationRetrieval Technology 4th Asia Infomation Retrieval Symposium, AIRS 2008, Harbin, China, January 15-18, 2008 Revised Selected Papers LNCS4993
  
  ページ: 508-513
- 査読あり
[学会発表] NSContrast : 世界ニュース比較分析システムの実験的評価2009
- 著者名/発表者名
  吉岡真治
- 学会等名
  言語処理学会第15回年次大会
- 発表場所
  鳥取大学
- 年月日
  2009-03-04
[学会発表] Implicit Groups of Web Pages as Constrained Top N Concepts2008
- 著者名/発表者名
  Li Aixiang, Makoto Haraguchi and Yoshiaki Okubo
- 学会等名
  Proceeding of the 2008 IEEE/WIC/ACM WI/IAT Workshop on Intelligent Web Interaction IWI'08
- 発表場所
  シドニー(オーストラリア)
- 年月日
  2008-12-09
[学会発表] Analyzing Multiple News Sites by Contrasting Articles2008
- 著者名/発表者名
  Masaharu Yoshioka
- 学会等名
  Proceedings of the Fourth Intl. Conf. on Signal-Image Technology & Internet-Based Systems
- 発表場所
  バリ(インドネシア)
- 年月日
  2008-12-03
[学会発表] Finding Top-N Formal Concepts Guided by Dynamic Ordering of Objects2008
- 著者名/発表者名
  Li Aixiang, Makoto Haraguchi and Yoshiaki Okubo
- 学会等名
  Proceeding of the 6th International Conference on Concept Lattice and Its Applications CLA'08
- 発表場所
  オロモウツ(チェコ)
- 年月日
  2008-10-23
[学会発表] A Top N Closed Pattern Miner using Counterexamples2008
- 著者名/発表者名
  Li Aixiang, Makoto Haraguchi and Yoshiaki Okubo
- 学会等名
  Proceedings of the International Conference on Data Mining and Statistical Science DMSS'08
- 発表場所
  東工大
- 年月日
  2008-09-26

2008 年度 実績報告書

個々のWebサイトが持つ情報の特性を考慮した多角的意見集約・分析の研究

研究代表者

吉岡 真治 北海道大学, 大学院・情報科学研究科, 准教授 (40290879)

研究成果

[雑誌論文] 情報爆発時代におけるわくわくするITの創出を目指して : パートI : 情報爆発時代における新しい基盤技術 : 1. キーワードサーチを超える情報爆発サーチ・自然言語処理で価値ある未知をマイニング・2008

著者名/発表者名

雑誌名

[雑誌論文] IR Interface for Contrasting Multiple News Sites2008

著者名/発表者名

雑誌名

[学会発表] NSContrast : 世界ニュース比較分析システムの実験的評価2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Implicit Groups of Web Pages as Constrained Top N Concepts2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Analyzing Multiple News Sites by Contrasting Articles2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Finding Top-N Formal Concepts Guided by Dynamic Ordering of Objects2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] A Top N Closed Pattern Miner using Counterexamples2008

著者名/発表者名

学会等名

発表場所

年月日

2008 年度実績報告書

吉岡真治北海道大学, 大学院・情報科学研究科, 准教授 (40290879)