2020 Fiscal Year Research-status Report
語順整序との同時実行に基づく読みにくい文の整形処理
Project/Area Number |
19K12127
|
Research Institution | Tokyo Denki University |
Principal Investigator |
大野 誠寛 東京電機大学, 未来科学部, 准教授 (20402472)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 言語生成 / 整形処理 / 構文解析 / 係り受け解析 / 話し言葉処理 / 読点挿入 / 語順整序 / 文字列予測 |
Outline of Annual Research Achievements |
本研究では、議事録や科学技術論文、製品マニュアル、ビジネスメール等における作文支援技術として、話し言葉や即興で生成された書き言葉に頻出する読みにくい文を読みやすく整形する手法を開発する。令和2年度は以下の4項目を実施した。 (1)高精度な語順整序を実現するため、従来手法に対してニューラル言語モデルを組み込んだ語順整序手法の開発を推進した。本年度は、昨年度開発した手法を拡張し、言語モデル(RNNLM)と構文情報を用いて、日本語文全体をボトムアップに語順整序する手法を開発した。1文全体をボトムアップに語順整序することにより、実際の文節の並びに基づいたスコア算出を実現している。 (2)読みにくい語順をもった日本語文に対して、係り受け解析、語順整序、読点挿入を同時実行する手法の開発を推進した。本手法は、係り受け構造が付与されていない文を入力とし、係り受け解析、語順整序、読点挿入を同時に行う。文末からのトップダウン係り受け解析との同時実行に基づいて、日本語文の語順整序と読点挿入を実現した。 (3)話し言葉を読みやすい字幕に整形するための要素技術として、ニューラルネットワークを用いた日本語講演テキストへの改行挿入手法の開発を推進した。本成果はFIT2020奨励賞を受賞した。 さらに、逐次的な改行挿入手法の開発に取り組んだ。具体的には、昨年度開発した残存文長推定機構を逐次的な改行挿入手法に組み込み、逐次的な改行挿入の精度向上を実現した。 (4)読みやすい文への整形を実現するための基盤技術として、話し言葉に対する係り受け解析器の開発を推進した。具体的には、漸進的係り受け解析において未だ入力されていない係り先文節の内容を予測することを目標に、その端緒として2つの係り元文節の情報から、それらが共に係る文節を深層学習により予測する手法を提案した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実施計画に従って、従来の語順整序手法にニューラル言語モデルを組み込んだ手法の開発を推進し、一定の成果を得ることができた。また、読点挿入・語順整序・係り受け解析を同時実行するアルゴリズムの開発に前倒して取り組み、2種類のアルゴリズムの考案と実装及び評価実験まで実施した。 その他、本研究課題の関連研究として、ニューラルネットワークを用いた日本語講演テキストへの改行挿入手法や、残存文長の推定手法の開発、残存文長を考慮した逐次的改行挿入手法の開発、漸進的係り受け解析に関する研究を推進した。 なお、研究実施計画では、話し言葉や即興で生成した書き言葉と、それらを人手で読みやすく整形した文のペアの収集を予定していたが、その収集方法や代替方法を再度検討することとし、前述の各種手法の開発を優先して実施している。
|
Strategy for Future Research Activity |
研究実施計画に従って、引き続き、語順整序手法にニューラル言語モデルを組み込んだ手法や、読点挿入・語順整序・係り受け解析を同時実行する手法の開発を推進し、実験結果の分析や、それに基づく性能向上に取り組む予定である。 その他、本研究課題の関連研究として、引き続き、ニューラルネットワークを用いた日本語講演テキストへの改行挿入手法や、漸進的係り受け解析に関する研究を推進する予定である。
|
Causes of Carryover |
理由:研究実施計画では、話し言葉や即興で生成した書き言葉と、それらを人手で読みやすく整形した文のペアの収集を予定していたが、その収集方法や代替方法を再度検討することとし、各種手法の開発を優先して実施したため、これらの収集のための費用が未執行となった。また、新型コロナウィルス感染症拡大のため、予定していた各種学会発表がオンライン開催となり、それに係る旅費が未執行となった。 使用計画:話し言葉や即興で生成した書き言葉と、それらを人手で読みやすく整形した文のペアの収集については引き続き検討しつつ、開発中の各種手法の評価用・学習用データの増築や成果発表等に使用する予定である。また、開発用GPU付高性能計算機を購入する予定である。
|
Research Products
(6 results)