2019 Fiscal Year Annual Research Report
Sentence translation mechanism equipped with an explainable process based on real-world and linguistic knowledge
Project/Area Number |
19H04162
|
Research Institution | Tohoku University |
Principal Investigator |
鈴木 潤 東北大学, 情報科学研究科, 准教授 (80396150)
|
Co-Investigator(Kenkyū-buntansha) |
乾 健太郎 東北大学, 情報科学研究科, 教授 (60272689)
松林 優一郎 東北大学, 大学院教育学研究科, 准教授 (20582901)
|
Project Period (FY) |
2019-04-01 – 2022-03-31
|
Keywords | 自然言語処理 / 人工知能 / 機械学習 / 文章生成 / 解釈性 / 説明性 |
Outline of Annual Research Achievements |
機械翻訳,文書要約,文章校正といった,ある入力文章を事前の定義に基づいて別の文章に変換する「文章変換技術」として広く用いられている符号化復号化器に関して,その処理過程を人間が解釈でき,かつ,処理結果を人手により比較的容易に操作できる技術の構築に取り組んだ. 一つ目の主要な成果として符号化復号化器に隠れ変数を導入し,その隠れ変数を自動または手動で選択することで入力文の特定の情報のみを利用した文章変換法を構築した.これにより,隠れ変数(入力の一部)の選択と生成される文章の間に対応関係がとれる.よって,本研究課題が目指す「文章変換の処理過程を陽に獲得する」という目的を満たす方法論の一つを実現した.また,本成果は自然言語処理分野の最難関国際会議に採録されるなど,国際的にも高い評価を得た. 二つ目の主要な成果として,学習時においては未知のデータに対して,モデルの予測結果が学習データ中のどのデータを根拠として得られたかを直接的にモデル化する方法論を考案した.この方法は,上記一つ目の主要成果とは異なり,内部の処理過程は陽に示されないが,予測に寄与した学習データを提示できる.よって,それを人間が目視することで,具体的にどの学習データの情報に基づいてモデルの予測がなされたのかを人間が確認できる.この方法論は,符号化復号化器自体の性能を向上させるものではないが,従来の性能を維持したまま,予測の根拠を提示できるという新たな機能を追加したという観点で,これまでにない画期的な方法論と言える. 今年度も引き続き文章変換における処理の解釈に資する研究を継続し,人間がどのように情報を提示されるとより解釈が容易であるかといった検証も取り入れて研究を推進する予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
今年度の進捗は当初計画した一年目の成果は概ね実現し,さらに追加で当初計画外の新たな方法論も構築することに成功した. 詳細では当初計画と異なる点がある.例えば当初は逐次変換処理方式を目論んでいたが,それに代わる方法論として隠れ変数モデルを考案した.よって,厳密には予定とは別の方法論により目的を達成したことに相当する.ただし,方法論は多少異なっていても,当初計画である「文章変換の処理過程を陽に獲得する」という目的を満たす方法論であることに変わりはなく,より自然な方式で研究目的を達成したと解釈できる. また,当初予定には含まれていなかった,学習データを根拠としたモデルの予測結果の解釈という新たな方法論の考案も実現した.これは処理過程そのものの解釈には寄与しないものの,予測根拠が示されることにより,システム開発者や利用者が,予測結果の良さを直感的に判別することができるという利点があり,本課題の目的である処理過程の解釈という題材と目標を共にする技術である. 上記二点による今年度の主要な研究成果以外にも,例えば学習に用いるデータそのものを工夫することで,モデルの解釈や性能を向上させる方法論の考案に取り組んだ,これらの成果はまだ発展途上であるが,今後の発展に期待が持てる結果が得られており,次年度も引き続き検証をおこなう. これらの成果は国際会議および国内会議にて発表を行い良好な評価を得ている.
|
Strategy for Future Research Activity |
今年度は当初の計画通り実世界知識および言語知識として,知識獲得および自然言語解析(構文解析,意味役割付与など)の処理結果を文章変換の処理過程を説明する根拠として利用できる方法論の構築を目指す.ここでの実世界知識や自然言語解析の処理結果は,文章変換の中間状態を陽に表現したものと捉えることができる.また,これらの表現は人間が認知しやすい記号的な形態のため,本課題の目的である人間が処理過程を理解するために用いる表現として効果的と言える.この人間が解釈しやすい表現を介在して処理を行うことで,解釈性の高い文章変換技術を構築する. 現在の技術は計算機が処理しやすい表現と人間が理解しやすい表現の間に乖離があり,性能を重視するとよりその乖離が大きくなるという点に大きな課題がある.今年度も昨年度の成果と同じように,現在深層学習などで得られる最先端の性能を維持したまま追加の効能としてより人間の解釈が容易となるモデルを考案する. また,これらの取り組みが世界的にもあまりなされていないのは,人間にとって可読性の高い表現を,深層学習などのベクトルや行列のみで表現される計算方法とどのように効果的に融合するかという点が自明でない点にある.よって,今年度はこの効果的な融合方法に関して特に重点的に調査をおこない,現状考えられる最良の融合方法を発見することを目標とする. より具体的には,知識獲得,固有表現関係抽出,構文解析,意味役割付与といった技術で用いられる正解,および,それらの入出力間の対応関係を文章変換モデルの学習と同時におこなうという方法論を用いる,さらに,導入した言語知識を利用した場合としなかった場合で,出力文章(生成された文章)にどのような違いが現れるかを詳細に分析することで,その効果を検証する.
|