WWWのオンラインマニュアル化による知識検索

公募研究

研究領域	情報爆発時代に向けた新しいIT基盤技術の研究
研究課題/領域番号	21013003
研究種目	特定領域研究
配分区分	補助金
審査区分	理工系
研究機関	東京工業大学
研究代表者	藤井敦東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)
研究期間 (年度)	2009 – 2010
研究課題ステータス	完了 (2010年度)
配分額 *注記	5,000千円 (直接経費: 5,000千円) 2010年度: 2,500千円 (直接経費: 2,500千円) 2009年度: 2,500千円 (直接経費: 2,500千円)
キーワード	WWW / 知識検索 / 意見分析 / 情報検索 / 情報爆発 / 評判情報 / 隠語 / 自然言語処理 / 事典 / Wikipedia
研究概要	近年,World Wide Web上の検索エンジンを使って様々な調べ物や捜し物をすることが日常的になっている.しかし,Webには統制がないため,必要な情報だけを選別し,複数の情報を結び付けて解を見出す作業はユーザにゆだねられている.この問題を解消するために,既存の情報検索を超える知識検索の技術について研究を行った.本研究が目指す知識検索とは,Webに潜在するにも拘らず,キーワードやカテゴリでは見つけることが難しい「人々の知識や考え」を取り出す作業である. 2010年度は,企業や商品などの評判情報をWebから効率よく検索する手法について研究した.本研究の特長は,Web上の評判情報では「隠語」が使われることが多いことに着目した点にある.本研究は,評判を検索する対象の事物(企業名など)から,人間が考えそうな隠語を自動生成し,その隠語集合を用いてWebを検索する.そのため,隠語が造られるパターンを類型化し,隠語生成を自動化した.しかし,隠語の自動生成は完璧ではなく,人間が使用しないような無意味な文字列が隠語の候補として生成される場合がある.その結果,評判情報の検索精度が低下するといった問題が生じてしまう.この問題を解消するために,正式名称と各隠語候補が出現する文脈を分析し,正式名称と同じような文脈に出現する隠語候補には高いスコアを与える手法を提案した.具体的には,正式名称や隠語候補の周辺に出現する単語の集合を「文脈」としてモデル化し,自然言語処理の分野で開発された文脈類似度によって,各隠語候補のスコアを計算した.評価実験の結果,隠語候補のスコアを計算し,上位の隠語候補だけを用いてWebを検索することによって,評判情報の検索精度を向上させることに成功した.

報告書

(2件)

2010 実績報告書
2009 実績報告書

研究成果
(8件)

すべて 2011 2010 2009

すべて雑誌論文 (6件) (うち査読あり 6件) 学会発表 (2件)

[雑誌論文] アンカーテキストモデルと検索質問分類によるWeb文書検索の高度化2010
- 著者名/発表者名
  藤井敦
- 雑誌名
  
  情報処理学会論文誌
  
  巻: 51(12) ページ: 2330-2342
- NAID
  110007970832
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Question Answering for the Operation of Software Applications : A Document Retrieval Approach2010
- 著者名/発表者名
  Atsushi Fujii, Seiji Takegata
- 雑誌名
  
  IEICE Transactions on Information and Systems
  
  巻: E93-D(6) ページ: 1369-1377
- NAID
  10027987466
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] 中国語への翻字における関連語抽出の応用2010
- 著者名/発表者名
  黄海湘, 藤井敦
- 雑誌名
  
  自然言語処理
  
  巻: 17(2) ページ: 3-24
- NAID
  10027016194
- 関連する報告書
  2010 実績報告書
- 査読あり
[雑誌論文] Modeling Slang-style Word Formation for Retrieving Evaluative Information2009
- 著者名/発表者名
  藤井敦
- 雑誌名
  
  Proceedings of Conference of the Pacific Association for Computational Linguistics
  
  ページ: 290-295
- 関連する報告書
  2009 実績報告書
- 査読あり
[雑誌論文] A Lemmatization Method for Mongolian and its Application to Indexing for Information Retrieval2009
- 著者名/発表者名
  Badam-Osor Khaltar, Atsushi Fujii
- 雑誌名
  
  Information Processing & Management 45(4)
  
  ページ: 438-451
- 関連する報告書
  2009 実績報告書
- 査読あり
[雑誌論文] 栄養素等摂取バランスを考慮した料理レシピ検索システム2009
- 著者名/発表者名
  苅米志帆乃, 藤井敦
- 雑誌名
  
  電子情報通信学会論文誌 J92-D(7)
  
  ページ: 975-983
- NAID
  110007331956
- 関連する報告書
  2009 実績報告書
- 査読あり
[学会発表] 評判情報の検索における隠語の生成と順位付け2011
- 著者名/発表者名
  太田裕貴, 藤井敦
- 学会等名
  言語処理学会第17回年次大会
- 発表場所
  豊橋市
- 年月日
  2011-03-10
- 関連する報告書
  2010 実績報告書
[学会発表] 意見マイニングを志向したQAサイト投稿テキストの解析2010
- 著者名/発表者名
  井上結衣, 藤井敦
- 学会等名
  第2回データ工学と情報マネジメントに関するフォーラム
- 発表場所
  兵庫県淡路市
- 年月日
  2010-03-01
- 関連する報告書
  2009 実績報告書

WWWのオンラインマニュアル化による知識検索

研究代表者

藤井 敦 東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)

5,000千円 (直接経費: 5,000千円)

報告書

研究成果

[雑誌論文] アンカーテキストモデルと検索質問分類によるWeb文書検索の高度化2010

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Question Answering for the Operation of Software Applications : A Document Retrieval Approach2010

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] 中国語への翻字における関連語抽出の応用2010

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] Modeling Slang-style Word Formation for Retrieving Evaluative Information2009

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A Lemmatization Method for Mongolian and its Application to Indexing for Information Retrieval2009

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] 栄養素等摂取バランスを考慮した料理レシピ検索システム2009

著者名/発表者名

雑誌名

NAID

関連する報告書

[学会発表] 評判情報の検索における隠語の生成と順位付け2011

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

[学会発表] 意見マイニングを志向したQAサイト投稿テキストの解析2010

著者名/発表者名

学会等名

発表場所

年月日

関連する報告書

藤井敦東京工業大学, 大学院・情報理工学研究科, 准教授 (30302433)