2007 年度実績報告書

個々のWebサイトが持つ情報の特性を考慮した多角的意見集約・分析の研究

研究課題

研究課題/領域番号	19024002
研究機関	北海道大学
研究代表者	吉岡真治北海道大学, 大学院・情報科学研究科, 准教授 (40290879)
研究分担者	原口誠北海道大学, 大学院・情報科学研究科, 教授 (40128450) 大久保好章北海道大学, 大学院・情報科学研究科, 助教 (40271639)
キーワード	情報検索 / テキストマイニング / クラスタリング / フォーマルコンセプト
研究概要	本研究では、情報抽出元である各々のWebサイトが持つ情報の偏りなどの特徴を分析する方法を提案すると共に、この特徴分析の結果を踏まえた意見集約・分析の方法を提案している。具体的には、全てのデータセットを含む全体のデータベースと特定の条件を満たす部分データベースにおけるデータの分布の違いに注目したコントラストセットマイニングを適用することにより、個々のサイトの特徴を分析する方法を提案する。この目標に対して、本年度は、「コントラストセットマイニングによる個々のサイトの特徴分析」と「ピンポイントクラスタリングによるWebサイトの分析」の2つの課題について研究を行った。コントラストセットマイニングによる個々のサイトの特徴分析の研究として、本年度は、複数ニュースサイトの比較によるニュースサイトの特徴分析の研究を行い、ニュースサイトの比較分析システムを構築した。本システムでは、個々のニュースサイトと他のニュースサイトにおける共起語の相関性の違いに注目することにより、各々のニュースサイトの特徴を現す語を抽出する。また、本システムを利用して、実際に複数のニュースサイトから獲得した新聞記事を使った分析を行い、国ごとに違う興味を表す手がかりとなるキーワードが発見できることを確認した。また、ピンポイントクラスタリングによるWebサイトの分析として、本年度は、対象となる文書、対象(例えば、文書)と、属性(例えば、索引語の存在)の組となる関係から、閉包であるクラスタを発見するフォーマルコンセプト(FCA)を用いた分枝限定法にもとづくトップN-FC探索手法の研究を行った。

研究成果
(6件)

すべて 2008 2007

すべて雑誌論文 (3件) (うち査読あり 2件) 学会発表 (3件)

[雑誌論文] Research on multiple news sites analysis using correlation change2008
- 著者名/発表者名
  Masaharu Yoshioka, Tsuyoshi Taniguchi, Makoto Haraguchi
- 雑誌名
  
  Knowledge Media Science. Preparing the Ground: International Workshop, Landsberg Castle, Meiningen Germany, Revised Selected Papers (In press)
- 査読あり
[雑誌論文] An Extended Branch-and-Bound Search Algorithm for Finding Top-N Formal Concepts of Documents2008
- 著者名/発表者名
  Makoto Haraguchi, Yoshiaki Okubo
- 雑誌名
  
  An Extended Branch-and-Bound Search Algorithm for Finding Top-N Formal Concepts of Documents (In press)
- 査読あり
[雑誌論文] マイナーなテキスト情報をも活用する情報アクセス技術2007
- 著者名/発表者名
  吉岡真治
- 雑誌名
  
  ヒューマンインターフェース学会誌 9(4)
  
  ページ: 269-274
[学会発表] IR Interface for Contrasting Multiple News Sites2008
- 著者名/発表者名
  Masaharu Yoshioka
- 学会等名
  Fourth Asia Information Retrieval Symposium AIRS2008
- 発表場所
  ハルピン工科大学(中国ハルピン)
- 年月日
  20080115-18
[学会発表] Extrancting Pseudo-Biclusters from Gene Expression Data Based on Suffix Tree2007
- 著者名/発表者名
  Tetsuro Nanba, Makoto Haraguchi, Yoshiaki Okubo
- 学会等名
  The International Workshop on Data Mining and Statistical Science-DMSS'07
- 発表場所
  統計数理研究所 (東京都港区)
- 年月日
  20071005-06
[学会発表] Data Mining of Time-Series Medical Data by Formal Concept Analysis2007
- 著者名/発表者名
  Kenji Sato, Yoshiaki Okubo, Mako to Haraguchi, Susumu Kunifuji
- 学会等名
  The 11th International Conference on Knowledge-Based Intelligent Information and Engineering Systems-KES'07
- 発表場所
  Lloyd's Baia Hotel, (Vietri Sul Mare, Salerno, Italy)
- 年月日
  20070912-14

2007 年度 実績報告書

個々のWebサイトが持つ情報の特性を考慮した多角的意見集約・分析の研究

研究代表者

吉岡 真治 北海道大学, 大学院・情報科学研究科, 准教授 (40290879)

研究成果

[雑誌論文] Research on multiple news sites analysis using correlation change2008

著者名/発表者名

雑誌名

[雑誌論文] An Extended Branch-and-Bound Search Algorithm for Finding Top-N Formal Concepts of Documents2008

著者名/発表者名

雑誌名

[雑誌論文] マイナーなテキスト情報をも活用する情報アクセス技術2007

著者名/発表者名

雑誌名

[学会発表] IR Interface for Contrasting Multiple News Sites2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Extrancting Pseudo-Biclusters from Gene Expression Data Based on Suffix Tree2007

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Data Mining of Time-Series Medical Data by Formal Concept Analysis2007

著者名/発表者名

学会等名

発表場所

年月日

2007 年度実績報告書

吉岡真治北海道大学, 大学院・情報科学研究科, 准教授 (40290879)