研究実績の概要 |
【研究の目的】本研究の目的は統計的機械学習による,一貫性等の文書評価・意味解析に関するモデル・指標の確立である.また,論文検索や文書分類といった文書評価に活用可能なソフトウェアの開発に取り組む.本研究で行う課題は大きく分けて以下の3項目であった. (1)言語依存性の研究:特定言語の文書データに関するグラフ・ベクトルを生成し,グラフ指標等の有効性の検証を行う. (2)特定の文書分野に関する研究:論文や書籍等の文書データにおいて,文書からグラフやベクトルを生成し,文書分類や意味解析に有用な指標の調査を行う. (3) ランダム化された文書に関する研究:語をランダムシャッフルした文書において,グラフ指標等の変化と文書評価タスクに有効かを明らかにする. 27年度は主に(1),(3)について研究を進め,(2)に関しても一部実施した. (1):データの充実した英語・日本語の文書を対象に,文書から生成した語や文等のグラフ・ベクトルの解析・評価を行った.その結果,データ量が不足している場合グラフが疎になるため,指標が有用に機能しない問題が確認された.このため,研究対象をデータ量の最も充実した英語に決定した.また,研究方式を見直し,豊富な外部リソースを使用した意味解析を行う前段階として,最新のニューラルネットワークをベースとする意味解析モデルの検討を行った.この解析モデルには語の分散表現(ベクトル)が必要なため,語やグラフの分散表現に関する解析を追加で行った.(2):研究対象として適切な文書データセットの検討を行い,論理的な文書構造を持つ論文データセットについて,自然言語処理分野の論文データセット(ACL Anthology)の準備を行った.(3):(1)で検討した語の分散表現が,実質的にランダム化された文書を考慮しているものであることから,(1)の分散表現に関する研究の一要素として統合することとした.
|