2016 Fiscal Year Annual Research Report
ウィキペディアのモデル化に基づく体系的・連想的な解説記事の自動生成
Project/Area Number |
15H02747
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
藤井 敦 東京工業大学, 情報理工学院, 准教授 (30302433)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 情報理工学院, 教授 (20197875)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 自然言語処理 / 情報検索 / 百科事典 / 情報の組織化 / ウィキペディア |
Outline of Annual Research Achievements |
ウィキペディアのように人手で統制された事典情報が大規模化した一方で,それを量がする大量の「統制されていない情報」がウェブには存在する.本研究の目的は,ウィキペディアをモデル化して未統制のテキスト群から解説記事を自動生成することである.ウィキペディアの記事集合から「人間が用語を解説する仕組みをモデル化してテキスト群を自動編集する.様々な観点から詳説する「体系的解説」と既知語との関連付けや対比によって直感的に概説する「連想的解説」のモデルを構築して使い分けを可能にする.物事の本質を体系的に捉えて,それを噛み砕いて直感的に説明するモデルの構築を通して自然言語理解の本質に迫る.
体系的解説モデルの構築では,あるテキストが「どのような用語(用語カテゴリ)」について「どのようなセクション(観点)」で解説しているのか特定するための分類器を機械学習する.自然言語テキストによる解説だけでなく,数式の構造解析とそれに基づく文書分類の課題に取り組んだ.ウィキペディアにおいても理工学系の専門用語に対する解説記事には数式が含まれることが多い.数式の構造解析によって,数式を構成する任意の部分構造とカテゴリの対応関係を機械学習することを可能とした.
連想的解説モデルの構築では,同種の対象を複数並べて,他との比較によって得失について解説する手法の実現を試みた.解説の対象は種々の観点から数値的に評価されており,自然言語テキストによるレビューが利用可能であることを前提とする.数値とテキストによる評価をそれぞれ「体系的解説」および「連想的解説」と見なして,一方から他方への変換について探求した.一つの対象を種々の観点で評価する場合は,特に優れた観点と特に劣った観点に関するレビューは注目に値する.「当該対象だけを見て最も優れている観点」と「他の対象と比べて優れている観点」を区別するための素性に関する考察を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
ウィキペディアは,専門用語に関する記事の件数および内容の密度において依然として不足がある.具体的には,解説記事のセクション構造が単調で解説の観点が不明確になりやすく,また数式のような非自然言語テキストによる簡素な解説になりやすい.その結果,本研究で提案した体系的解説のモデル構築において,用語カテゴリと観点の対をテキスト情報に高精度で対応付けることが困難であった.今回,数式の構造解析に基づく文書分類に関する基礎研究を進展させたことによって,上記のような状況においても数式情報を手掛かりとして,用語カテゴリや観点の分類精度を向上させることや,当該数式に関連する自然言語テキストをウェブから検索することで情報の不足を補うための新たな切り口を得ることができた.
比較に基づく連想的解説のモデルにおいて,同一対象内での比較による優れた特徴を消極的にほめる表現(「このテレビは総じて駄目だけれど,画質だけはきれい」)と,他との比較による優れた特徴を積極的にほめる表現(「このテレビの画質は同じ価格帯のテレビよりもダントツにきれい」)を区別するための言語的な素性について,いくつかの新たな知見を得ることができた.
|
Strategy for Future Research Activity |
森羅万象について系統立てて,またときには比喩によって直感的に説明するという人間の知的活動を解明するために,自然言語処理,情報検索,情報の組織化といった学際横断的な体制で取り組んできた.本研究で提案した方法論で構築した解説型コンテンツは,いわゆる工知能と総称される様々なコンピュータシステムにおける知識ベースとして発展する可能性を秘めている.それと同時に人間に対する教育や知的生産性の向上という点においても意義がある.ただし,ウィキペディアのような百科事典を端から読み進めても学校教科書を用いた場合の学習効果が得られる訳ではない.豊富な知識を身につけることと,思考能力を研ぎ澄ますことは明らかに異なる能力の開発である.本研究で探求した「分かりやすさ」のモデルの限界を見極めて,さらに新領域を開拓することを展望しつつ,そのための準備についても具体的な計画を練る予定である.
|
Research Products
(5 results)