2019 Fiscal Year Annual Research Report
Project/Area Number |
18J20936
|
Research Institution | Tohoku University |
Principal Investigator |
高橋 諒 東北大学, 情報科学研究科, 特別研究員(DC1)
|
Project Period (FY) |
2018-04-25 – 2021-03-31
|
Keywords | 自然言語処理 / 表現学習 / 知識ベース |
Outline of Annual Research Achievements |
本研究課題は,計算機が常識的な知識を使いながら文章を理解するために,常識的な知識をどのように計算機に教え,どのような計算の枠組みで知識を使えば良いかについての研究である.2018年度は知識ベースの分散表現の学習手法に焦点を当てた.2019年度は2018年度の研究成果を応用・発展させる方向性で主に二つの研究に取り組んだ. 一つ目は,日本語のフレーズの表現学習である.これは,本研究課題の当初の予定であった「分散表現に基づく常識的知識の獲得手法の構築」に該当する.日本語のフレーズの表現学習では,係り受け関係を二項関係とみなして,知識ベースの関係学習と同様の手法を適用する.例えば,「論文を読む」というフレーズは「論文」と「読む」を「ヲ格」という関係が結んでできたものと考えられる.モデルは,「読む」ベクトルに「ヲ格」行列をかけたときに,「論文」ベクトルに近づくようにパラメータを学習する.京都大学の黒橋・河原研究室(当時)などの協力の下,大規模な日本語コーパスを用いてフレーズの分散表現を学習した.評価実験のフレーズの同義性判定では,現在最先端の言語理解モデルであるBERTと比べて,提案モデルはパラメータが少ないにも関わらず性能面で肉薄する結果が得られた.これは,常識的知識の表現方法という観点において,BERTのような巨大かつ複雑なモデルは必要ではなく,線形代数に基づくシンプルなモデルで十分であることを示唆している. 二つ目は,2018年度の手法を自然言語の表現学習と組み合わせる手法についての研究である.簡単に言えば,知識ベースの分散表現をテキストからも学習可能にするための手法を開発している.WikipediaおよびWikidataの一部を用いた小規模な実験では一定の効果を示したが,大規模実験による精緻な検証が今後の課題である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初の計画であった「課題(2): 分散表現に基づく常識的知識の獲得手法の構築と照応解析への適用」に日本語のフレーズの表現学習からアプローチし,一定の成果を得たと考えている.
|
Strategy for Future Research Activity |
2020年度は2019年度の二つ目の取り組みをさらに推し進める.現在のところ,広く一般的なドメインを扱うWikipediaや,生物医学分野の論文を収集したMEDLINEとその知識ベースであるUMLSを用いた大規模な評価実験を計画している.評価実験では,知識ベース補完と呼ばれるタスクで知識ベースの埋め込みモデルの性能を評価する.ATOMICやConceptNetなどの常識的知識を蓄える知識ベースでの評価実験も計画している. また,研究成果を広く一般に利用可能にするための開発にも注力する.これに関連して,現在,COVID-19関連の論文を集約し,MEDLINEおよびUMLSと組み合わせることによって,COVID-19に関する知識(例:症状や治療法)を発見するシステムの開発に携わっている.COVID-19関連論文は近年,生物医学分野の研究者でも追い切れないほど急増している.そのような研究者を対象とし,発見された知識とその根拠となる論文を提示するWebインターフェースを開発しており,今後広く公開することを予定している.
|
Research Products
(1 results)