2016 Fiscal Year Annual Research Report
語のネットワーク解析手法を用いた文書の包括的一貫性の評価
Project/Area Number |
15J10839
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
小林 雄太 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2015-04-24 – 2017-03-31
|
Keywords | 意味解析 / リンク解析 |
Outline of Annual Research Achievements |
【研究の目的】本研究は統計的機械学習による,一貫性等の文書評価・意味解析に関するモデル・指標の確立である.また,論文検索等の文書評価に利用可能なソフトウェアの開発に取り組む.当初のグラフ指標のみの手法では精度が不足するため,語や文書の分散表現を用いた手法へと方針の修正を行っており,取り組んだ課題は下記の2項目である. (1)分散表現に関する研究:文書データは本文テキストのセクション構造や,引用ネットワーク等の構造的な情報を持つため,それらを考慮した分散表現の学習法について検討を行う. (2)分散表現を用いた応用タスクに関する研究:論文検索の応用タスクにおいて分散表現の評価を行う. (1),(2)の詳細を以下に記す. (1)構造化された文書として自然言語処理分野の英語論文データを対象とし,語の分散表現とグラフの分散表現を組み合わせることで論文の分散表現学習を行った.まず,文字列情報を考慮した語の分散表現学習手法を用いて,本文テキスト中の各セクションの論文中での構成要素(目的・手法・結論)の予測とベクトル化を行い,本文とその構成要素を考慮した論文ベクトルを学習した.次に,グラフの分散表現手法によるグラフ指標のモデル化により上記の論文ベクトルの更新を行った.具体的には,論文の引用グラフにラベル(引用の理由)を付与し,引用関係にある論文間で構成要素のベクトルの更新を行った. (2) まず,論文データセットを用いた,「研究目的が似ている」といった論文の構成要素に基づいた類似論文検索タスクにおいて,精度の改善を確認した.また,論文解析の国際ワークショップにおいて,直感的に文書を理解可能な引用グラフ視覚化システムの発表を行った.さらに,列挙型共引用に着目し,論文の構成要素に基づく自動評価データセットを構築した.最後に,各セクションの分散表現を用いて内容の推移を定量化し,一貫性判定モデルを構築した.
|
Research Progress Status |
28年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
28年度が最終年度であるため、記入しない。
|
Research Products
(2 results)