2018 Fiscal Year Annual Research Report
コンテクストの異なる話者間の相互理解を促進する意図補完機構を備えた統計的機械翻訳
Project/Area Number |
17J06394
|
Research Institution | The University of Tokyo |
Principal Investigator |
石渡 祥之佑 東京大学, 情報理工学系研究科, 特別研究員(DC2)
|
Project Period (FY) |
2017-04-26 – 2019-03-31
|
Keywords | 定義文生成 |
Outline of Annual Research Achievements |
本研究「コンテクストの異なる話者間の相互理解を促進する意図補完機構を備えた統計的機械翻訳」は,より円滑な多言語間コミュニケーションや情報収集を目的とし,話者が持つ暗黙の意図を自動補完する日英,日中間の機械翻訳の実現を目指すものである. 採用1年目には,未知の単語からの定義文生成を目的とし,入力単語の関連語の定義文を原型とし,それを編集することで定義文生成を行う新しい定義文生成モデルを提案した.採用2年目では,まず当該技術を機械翻訳へ導入することを目指し,より詳細な評価・分析を行った.その結果,(1)前年度までに利用していた訓練・評価用データセットは辞書資源(WordNet/GCIDE)から作られており,実際の対話において問題となりやすいエンティティ(例:人名,地名,楽曲や映画のタイトル)の定義文生成に用いることができないこと,(2)文化的・社会的コンテクストの差異によって理解が難しくなる表現は単一の「単語」だけでなく,複数の単語から構成される「句」も多く存在すること,(3)文脈ごとに適切な定義文は異なること,が判明した. 本研究が目的とする「話者の意図を補完する機械翻訳」を実現するためには,上記の3問題を解決することが必要不可欠となる.そこで,採用2年目には意図補完機構の翻訳システムへの導入に先駆け,前述した3つの課題の対処に取り組んだ.まず,エンティティの定義文を生成することを可能とするため,Wikipediaを活用し世界最大規模の学習用・評価用データセットを新たに構築した.次に,採用1年目に設計した定義文生成モデルの拡張に取り組んだ.新たに提案したモデルは「単語」だけでなく「句」の定義文生成も可能であり,さらに文脈ごとに異なる定義文を生成可能である.最後に,上記のデータセットおよび提案手法を論文としてまとめ,トップ国際会議であるNAACL2019に採択された.
|
Research Progress Status |
平成30年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
平成30年度が最終年度であるため、記入しない。
|
Research Products
(2 results)