2015 Fiscal Year Research-status Report
超大規模コーパスからの統計的知識獲得と構成論的記号計算の融合による句の類義性認識
Project/Area Number |
15K16045
|
Research Institution | Tohoku University |
Principal Investigator |
松林 優一郎 東北大学, 情報科学研究科, 助教 (20582901)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 概念構造 / 項構造解析 / 類犠牲認識 / 分散意味論 / 時間関係認識 / 選択選考モデル |
Outline of Annual Research Achievements |
本年度の研究においては、実応用に即した句の意味計算技術の構築を目標として、まず、実際の意味解析技術である述語項構造解析と時間関係認識の二つの解析技術に関して、その最先端のシステムにおける現状の問題点を分析し、改善を図りつつ計算モデルに反映させることを試みた。次に、句の類似性モデルの構築作業の一部として、述語とその項となる名詞の間の意味的な関係を表現する選択選考モデルを題材として、単語の分散表現にもとづく句の意味表現モデルを用いて、述語と項の組み合わせに関する妥当性や意味的な類似性を表現する計算モデルを構築した。 具体的に、述語を中心とした意味解析処理である述語項構造解析においては、項の省略や、述語相当の語が名詞化されている場合に発生する項の機能的曖昧性の解消問題、複数の述語間で項が共有する現象を念頭に置き、分析を進めた。また、時間関係認識技術においては、アスペクトやモダリティなどの文法的機能が、句が表す事態の時間的な関係にどのように関係するのかについて、実際の解析モデルを構築しながら計算モデルを分析した。この過程において項構造解析および時間関係認識に必要となる要素について集積し、二本の査読付き論文誌論文として公開した。 述語とその項となる名詞の間の意味的な関係を表現する選択選考モデルに関しては、ニューラルネットワークを用いて大規模データによる統計情報を単語横断的に一般化する表現手法により、述語と項の組み合わせに関する妥当性や、意味的な類似性を表現する計算モデルを構築した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は特に現状の解析技術における問題点を分析し、これを解析モデルに反映させる作業に注力した。これらの研究について成果報告までに要する時間が当初の予定よりも膨らんだため、今年度予定ていた大規模Webコーパスを利用した句の収集とクラスタリングについての進行がやや遅れ、また、これに伴って類似フレーズの抽出作業と、評価用セットの開発が遅れている。
|
Strategy for Future Research Activity |
今後は、まず遅れている大規模Webコーパスを利用した句の収集とクラスタリング、および類似フレーズの抽出作業、評価用セットの開発を達成し、現在までに構築した基本語に関する句の類似性計算モデルを評価する。 その後、当初の予定に従い、計算理論の修正と、より広範囲の語に対する計算を実現するためのクラスタリングに基づいた概念構造の伝搬に関する研究を進める。
|
Causes of Carryover |
本年度予定ていた大規模Webコーパスを利用した句の収集とクラスタリングについての進行がやや遅れ、また、これに伴って類似フレーズの抽出作業と、評価用セットの開発が遅れているため、作業員一名の雇用を翌年度に延期している。 また、成果報告として予定していた国際会議については、翌年度の前半の投稿予定となったため、この予算を翌年度に繰り越す。
|
Expenditure Plan for Carryover Budget |
遅れている評価用セットの開発のために、当初の予定期間のとおり作業員一名を雇用する。また、成果報告に関わる予算として国際会議への渡航費用を支出する。
|