2015 Fiscal Year Annual Research Report
ウィキペディアのモデル化に基づく体系的・連想的な解説記事の自動生成
Project/Area Number |
15H02747
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
藤井 敦 東京工業大学, 情報理工学(系)研究科, 准教授 (30302433)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 情報理工学(系)研究科, 教授 (20197875)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 自然言語処理 / 情報検索 / 百科事典 / 情報の組織化 / ウィキペディア |
Outline of Annual Research Achievements |
ウィキペディアのように人手で統制された事典情報が大規模化した一方で,それを凌駕する大量の「統制されていない情報」がウェブには存在する.本研究の目的は,ウィキペディアをモデル化して未統制のテキスト群から解説記事を自動生成することである.ウィキペディアの記事集合から「人間が用語を解説する仕組みをモデル化してテキスト群を自動編集する.様々な観点から詳説する「体系的解説」と既知語との関連付けや対比によって直感的に概説する「連想的解説」のモデルを構築して使い分けを可能にする.物事の本質を体系的に捉えて,それを噛み砕いて直感的に説明するモデルの構築を通して自然言語理解の本質に迫る. 体系的解説モデルの構築では,ウィキペディアから用語カテゴリごとに記事集合を集めて分類器を学習する.さらに各カテゴリに頻出するセクション名を観点として観点ごとの記述から分類器を学習する.「キーウィ」に関するテキスト群を与えると,それらを「動物」や「植物」の用語カテゴリに分類して対応する観点のいずれかに細分類する.最後に,各観点から代表性が高いテキストを選択して,それらを連結することで解説記事とする. 用語の解説だけでなく,手順に関する解説の自動生成を指向して,料理レシピテキストの構造解析に関する基礎研究も行った.提案手法は,調理手順をまとまりのある構成要素に分割して,内容を簡潔に表す見出しを生成することによって,手順の骨格であるアウトラインを抽出する.その他,商品等に対するレビューの解析と生成を指向して,レビューにおける評価の前提条件を抽出する手法を提案した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
様々な用語に関してウィキペディアのような百科事典的な解説記事を自動生成するモデルを中心として,料理レシピを題材とした手順解説テキストの生成に関する基礎研究および顧客レビューや時事問題に対する意見などの「評判情報」に関する基礎研究を同時に進めている.今年度は,評価の前提条件を抽出する研究課題において特に顕著な進展があった.評判情報の分析に関する既存の研究は,レビュー等の意見性を有するテキスト情報から,意見の最小単位として,「評価の対象(T),評価の属性(A),評価の極性(E)」という三つ組を抽出する.例えば,宿泊施設の利用客によるレビューからは,「○×ホテル(T)の立地(A)はとても便利だった(E)」のような意見が抽出される.しかし,こうした評価は往々にして種々の前提条件に依存する.先ほどの例では「小さい子供連れにとっては」という条件が付いており,それゆえ出張目的の利用客には当てはまらない可能性がある.こうした差異の抽出に取り組んだ研究は国内外に存在しない.すなわち,既存の評判分析手法によって得られる「○×ホテル」に関する総合評価には一定の割合で誤りが含まれることになる.実データに基づく我々の調査では,この誤差は最大30%であり決して無視できる数値ではない.本研究は,単語,構文,意味に基づく自然言語解析結果と教師あり機械学習手法を併用して,実用的な精度で評価に関する条件の抽出に成功している.なお,当該成果は著名な国際会議に採択されるとともに,情報処理学会の山下記念研究賞を受賞した.
|
Strategy for Future Research Activity |
同種の対象を複数並べて,他との比較によって得失について解説することを試みる.解説の対象は種々の観点から数値的に評価されており,また自然言語テキストによるレビューも利用可能であることを前提とする.数値とテキストによる評価をそれぞれ「体系的解説」および「連想的解説」と見なして,一方から他方への変換について研究を進める.具体的には,商品レビューにおける「星の数」と自由記述形式のレビューやスポーツ選手の成績情報と試合後の監督による談話などの論評を用いて評価実験と問題点の洗い出しを行う.一つの対象を種々の観点から評価する場合は,特に優れた観点と特に劣った観点に関するレビューや論評は注目に値する.ここで,当該対象における他の観点よりも優れていることと,他の対象と比べて優れていることを区別する必要がある.例えば,サッカー選手であれば,スピードやスタミナなどの観点で自分の能力地を比較するとスピードが最も高かったとしても他の選手と比べてスピードが見劣りするようであれば,他の選手と比べてスピードに定評のある選手とはスピードに関する論評の仕方が変わる可能性がある.自分自身における「優れた能力」と他者と比べたときの「優れた能力」を数値情報に基づいて区別して,それぞれに対応する自然言語テキストの論評に特有の語句を機械学習する.知名度がそれほど高くない選手は,テキストによる論評がそれほど存在しない場合がある.そのような場合でも機械学習したモデルに基づいて数値情報から応分の評価に関する語句や文章を自動合成する方法論を確立する.
|
Research Products
(5 results)