2015 Fiscal Year Annual Research Report
語のネットワーク解析手法を用いた文書の包括的一貫性の評価
Project/Area Number |
15J10839
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
小林 雄太 奈良先端科学技術大学院大学, 情報科学研究科, 特別研究員(DC2)
|
Project Period (FY) |
2015-04-24 – 2017-03-31
|
Keywords | 意味解析 / リンク解析 |
Outline of Annual Research Achievements |
【研究の目的】本研究の目的は統計的機械学習による,一貫性等の文書評価・意味解析に関するモデル・指標の確立である.また,論文検索や文書分類といった文書評価に活用可能なソフトウェアの開発に取り組む.本研究で行う課題は大きく分けて以下の3項目であった. (1)言語依存性の研究:特定言語の文書データに関するグラフ・ベクトルを生成し,グラフ指標等の有効性の検証を行う. (2)特定の文書分野に関する研究:論文や書籍等の文書データにおいて,文書からグラフやベクトルを生成し,文書分類や意味解析に有用な指標の調査を行う. (3) ランダム化された文書に関する研究:語をランダムシャッフルした文書において,グラフ指標等の変化と文書評価タスクに有効かを明らかにする. 27年度は主に(1),(3)について研究を進め,(2)に関しても一部実施した. (1):データの充実した英語・日本語の文書を対象に,文書から生成した語や文等のグラフ・ベクトルの解析・評価を行った.その結果,データ量が不足している場合グラフが疎になるため,指標が有用に機能しない問題が確認された.このため,研究対象をデータ量の最も充実した英語に決定した.また,研究方式を見直し,豊富な外部リソースを使用した意味解析を行う前段階として,最新のニューラルネットワークをベースとする意味解析モデルの検討を行った.この解析モデルには語の分散表現(ベクトル)が必要なため,語やグラフの分散表現に関する解析を追加で行った.(2):研究対象として適切な文書データセットの検討を行い,論理的な文書構造を持つ論文データセットについて,自然言語処理分野の論文データセット(ACL Anthology)の準備を行った.(3):(1)で検討した語の分散表現が,実質的にランダム化された文書を考慮しているものであることから,(1)の分散表現に関する研究の一要素として統合することとした.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
データセットとの兼ね合いから従来のグラフ指標の活用が難しく,本質的にグラフ指標と類似した分散表現へと方針の修正を行ったことから,追加の解析が必要となったため.
|
Strategy for Future Research Activity |
平成27年度は英語を対象言語として決定した. また,研究方針を従来のグラフ指標から,グラフ指標を考慮した分散表現に関する研究へと方針の修正を行った. このため,平成28年度は下記の項目について取り組む予定である. (a) 分散表現に関する研究 (b) 分散表現を利用した応用タスクに関する研究
|