2021 Fiscal Year Research-status Report
文意一貫性と意外性を備えた独創的な文を人間と協調して生成する人工知能の研究
Project/Area Number |
20K11958
|
Research Institution | Osaka Prefecture University |
Principal Investigator |
岡田 真 大阪府立大学, 工学(系)研究科(研究院), 助教 (40336813)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 文の意味一貫性 / 文脈破綻 / 文の自動生成 / 深層学習 / CVAE |
Outline of Annual Research Achievements |
本申請は主目標を人工知能の高度な言語能力の獲得として,そのために「意味一貫性」と創造的意外性としての「意味破綻」の双方を制御しつつ人間と協調しながら自由に文を生成できる人工知能の構築を目的としている. 2021 年度は国際会議 2 本および原著論文 1 本による発表があった.それぞれの成果としては (1) 物語理解のための深層学習手法を用いた小説における段落境界の自動推定,(2) 深層言語モデル BERT を用いた単語埋め込み (分散表現ベクトル) 生成を用いた分間における単語の意味関係の推定,(3) 深層生成手法の一種である Conditional Variational Autoencoder (CVAE) を基にして,文章の先頭の文と最後の文から双方向に文を生成していくことで整合性のとれた文を生成する手法をそれぞれ提案し,実験によりそれらの手法の有効性を確認した. 意味一貫性の面では (3) の CVAE ベースの文書生成手法により,文頭と文末双方の情報を考慮しながら全体的に破綻の無い文を生成する手法を提案したことと,それをさらに複数の文での関係も考慮しつつ生成するように拡張したことにより,意味一貫性を保った文生成に近づいたといえる.また (1) と (2) における成果は文書中の意味一貫性がどこまでつながり,どこで切り替わるのかという点について文章や単語の意味の関係性を考慮して推定する手法であり,こちらも文の意味一貫性の理解について有効な手法であると考えられる. 意外性という意味での意味破綻については現状十分な成果が得られているとはまだ言えない.今後の課題としたい.(3) の CVAE では確率的な要素を組み込むことで生成時の語彙選択に幅を持たせている.これは意外性を伴う意味破綻へとつながる要素として着目すべき点だと考えている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
実績概要で述べたように研究成果が得られ,それを対外的に定期的に発表できている.また当初の目的であった文の自動生成について進展が得られている点については順調であるといえるだろう.今後も文書自動生成については今までの成果を踏まえ,数十から数百の文を含む文書を意味一貫性を保ちつつ生成するという目標に向けて拡張していきたい.生成において人間の関係する要素として文のジャンルやシーンの希望などを組み込めると望ましいだろう. 意外性を伴う意味破綻が実現されている文章生成ができる人工知能については現状限定的な範囲にとどまるものである.CVAE など確率的な要素を組み込んだ深層言語モデルを利用することで生成される文中の語彙にバリエーションを与えることができる.そちらを単語レベルからフレーズレベルや文レベル,最終的には文章レベルまで範囲を拡張していけるようになることが望ましい.だが現状そこまではできていないため,その点について今後研究を進めていく必要があると考えている. 文書生成における重要な要素として当初考えていたアテンション (注意) 機構については Google の BERT とその派生といえるさまざまな言語モデルによってその有効性が証明されてきている.このことから考えると一貫性のある文生成においては申請者の着眼点は適切であったことがうかがえる.今後アテンション機構の利用と文意一貫性および意外性を伴う文脈破綻の関係についても研究を進めていきたい.
|
Strategy for Future Research Activity |
申請の最終年度として,文の自動生成における意味一貫性と意外性を伴う意味破綻について研究をさらに進めていき,今後より発展できるように展開していきたい.文書生成に関してはさまざまな分野を対象としてその文書生成能力の可能性と現状での限界について探りたい.また意外性を持つ文書生成に関してもその可能性を広げたい. 文書生成ではこれまでの小説や映画のプロットなどの分野に加えて,レビューなどの評価や皮肉表現といった人間の心情や文脈によって表現が同じでも受け取り手の意味が変化するタイプの文章を基にして,それらを用いた推定手法およびその推定モデルを組み込んだ生成手法へ展開を試みる. 文脈情報の推定やそれらを組み込んだ文生成では,学習に用いた文書が推定や生成に強い影響を与える.それを異なる複数の分野から収集した文書データによるモデルを組み合わせて推定や生成をすることで,単一の分野から学習したモデルに比べると意外性のある文の生成ができると推定しており,その仮定に基づいて意外性を伴う破綻の生成に関する研究を進めていきたいと考えている. また,現状の深層言語モデルの研究における単語や文脈の意味情報には WordNet に代表される人間による意味辞書などが組み込まれたものが少ない.これは今後人間との協調的な文書生成において文書生成の際に適切な表現を人工知能に選択させるための手段があまりないことを意味していると申請者は考えるに至っている.ジャンルなどで語彙に違いがあることは当然であり,それらを指示して文生成をさせることが可能となれば人工知能の生成能力はより向上することが予想される.またそれは最近の深層学習において注目される「説明可能性」の向上にも寄与すると考えられる.申請者は今年度はそれら人手による知識構造を機械学習手法によって得られたモデルに有効に組み込む手法についての研究もしていきたいと考えている.
|
Causes of Carryover |
今年度はコロナウィルス禍の影響により対外発表がオンラインとなったため,そのための旅費が必要なくなった.そちらを主に英語論文のための校正と発行料に費やした.その他研究成果発表のために必要な学会参加費や登録料に用いた.資料作成などに必要なトナーや紙類など消耗品も購入した.予定されていた使途と異なりが生じた結果,若干の差額が生じて,次年度使用額が生じることとなった. 次年度使用額は大きなものではないため,物品購入や旅費やその他の使途で当該年度の予算と合わせて用いることができる.
|
Research Products
(7 results)