2017 Fiscal Year Annual Research Report
Modeling Wikipedia to Automatically Generating Coherent and Associative Expository Articles
Project/Area Number |
15H02747
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
藤井 敦 東京工業大学, 情報理工学院, 准教授 (30302433)
|
Co-Investigator(Kenkyū-buntansha) |
徳永 健伸 東京工業大学, 情報理工学院, 教授 (20197875)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 自然言語処理 / 情報検索 / 百科事典 / 情報の組織化 / ウィキペディア |
Outline of Annual Research Achievements |
本研究は,ウィキペディアのように人手で統制された事典情報をお手本として,それを凌駕する大量の未統制テキスト群から種々の事物に関する解説記事を自動生成する.本研究の特長は,ウィキペディア等の記事集合から「人間が用語を解説する仕組み」をモデル化する点にある.一つの用語を様々な観点から詳説する「体系的解説」と既知語との対比によって直感的に概説する「連想的解説」のモデルを構築する.物事の本質を体系的に捉えて,それを噛み砕いて直感的に説明するモデル構築の研究を通して自然言語理解の本質に迫る.本研究で提案した方法論で構築した解説型コンテンツは,学校教育や知的生産性の向上という点において意義がある.また,人工知能システムにおける知識ベースとして発展する可能性がある.
体系的解説モデルは,ウィキペディアの記事がセクションという目次項目で構造化されており,しかも用語のカテゴリによって解説の観点が異なる点に着目した.ウィキペディアの記事集合から用語カテゴリやセクションに基づいて入力テキストを分類する分類器を機械学習して,解説モデルとして利用する.操作手順を解説する場合は,使用説明書やレシピなどのテキスト構造を解析し,手順の段階ごとに分割して見出しを付けることでアウトラインを生成する.また,理工学系の解説記事には数式が含まれることが多い.数式の構造解析によって,数式を構成する任意の部分構造とカテゴリの対応関係を機械学習することを可能とした.連想的解説モデルの構築では,体系的な解説に含まれる語句から,解説対象との共通点や読者の馴染み度合などの基準に基づいて別の語句に置換する手法を提案した.
|
Research Progress Status |
29年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
29年度が最終年度であるため、記入しない。
|
Research Products
(3 results)