2014 Fiscal Year Annual Research Report
あらゆる句の正規化:事実の抽出と発見のための大規模テキスト解析
Project/Area Number |
13F03041
|
Research Institution | The University of Tokyo |
Principal Investigator |
鶴岡 慶雅 東京大学, 工学(系)研究科(研究院), 准教授 (50566362)
|
Co-Investigator(Kenkyū-buntansha) |
SAITO STENETORP Pontus Lars Erik 東京大学, 工学(系)研究科(研究院), 外国人特別研究員
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 自然言語処理 / 機械学習 / ニューラルネットワーク |
Outline of Annual Research Achievements |
本研究プロジェクトの目的はあらゆる句を正規化であるが、それを行うためには、様々な言語表現によって記述される名詞句や動詞句間の類似性を数値的に表現できる必要がある。 近年、そのような手法として、word2vecをはじめとする単語の分散表現の自動学習手法が注目を集めているが、我々はそれをさらに発展させ、「形容詞+名詞句」や「主語+動詞+目的語」といった句の分散表現を、構文解析済みの大量のテキストから自動学習する手法を開発した。具体的には、述語・項構造と呼ばれる、「深い」構文構造上にニューラルネットワーク言語モデルを構成し、述語・項構造中の単語予測の精度を最大化することによって、単語や句のベクトル表現を学習した。この種のベクトル表現の評価には、人間があらかじめ句の類似性を数値的にアノテートしたデータセットがしばしば用いられる。すなわち、得られたベクトル表現から計算される句同士の類似度が、人間の判断する類似度と高いほど高精度ということになるが、我々の手法によって得られたベクトル表現は、「形容詞+名詞」や「名詞+名詞」などにおいては、従来の世界最高レベルと同程度、「主語+動詞+目的語」のようなさらに複雑な構造をもつ句に対しては、従来の世界最高精度を上回る精度を達成した。このことは、我々の手法によって得られた句の分散表現が、従来手法よりも句の意味的な類似度をより正確にとらえていることを示している。
|
Research Progress Status |
翌年度、交付申請を辞退するため、記入しない。
|
Strategy for Future Research Activity |
翌年度、交付申請を辞退するため、記入しない。
|
Research Products
(1 results)