語順整序との同時実行に基づく読みにくい文の整形処理
Project/Area Number |
19K12127
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | Tokyo Denki University |
Principal Investigator |
大野 誠寛 東京電機大学, 未来科学部, 教授 (20402472)
|
Project Period (FY) |
2019-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
Fiscal Year 2020: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2019: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
|
Keywords | 整形処理 / 言い換え / 構文解析 / 係り受け解析 / 話し言葉処理 / 読点挿入 / 語順整序 / 言語生成 / 改行挿入 / 字幕生成 / 助詞推定 / 文字列予測 / 自然言語処理 |
Outline of Research at the Start |
本研究では、議事録や科学技術論文、製品マニュアル、ビジネスメール等における作文支援技術として、話し言葉や即興で生成された書き言葉に頻出する読みにくい文を読みやすく整形する手法を開発する。その特徴は、整形処理の中心に語順整序を置き、読みやすい位置への読点挿入や適切な助詞への言い換えを、語順整序と同時実行する点にある。また、その際に、RNN言語モデルを有効活用する点にある。
|
Outline of Annual Research Achievements |
本研究では、議事録や科学技術論文、製品マニュアル、ビジネスメール等における作文支援技術として、話し言葉や即興で生成された書き言葉に頻出する読みにくい文を読みやすく整形する手法を開発する。令和4年度は以下の4項目を実施した。 (1)高精度な語順整序を実現するため、BERTと係り受け情報を用いて、日本語文全体をボトムアップに語順整序する手法を開発し、評価実験を実施した。さらに、読みにくい語順をもった日本語文に対して、係り受け情報を利用することなく、トポロジカルソートとBERTを用いて語順整序を行う手法の開発し、評価実験を実施した。 (2)Shift-Reduce法に基づいて係り受け解析・語順整序・読点挿入を同時実行する手法の開発を推進した。具体的には、各時点の操作選択においてBERT を用いた分類モデルを導入することにより、精度向上を図った。本成果は情報処理学会第85回全国大会にて学生奨励賞を受賞した。 (3)話し言葉を読みやすい字幕に整形するための要素技術として、BERTを用いた日本語講演テキストへの逐次的な改行挿入手法の開発を行った。逐次的な改行挿入等への応用を目的に、漸進的係り受け解析技術の開発を推進するとともに、漸進的係り受け解析結果を用いた改行挿入手法の開発を進めた。本成果は情報処理学会第85回全国大会にて学生奨励賞を受賞した。 (4)読みやすい文への整形を実現するための基盤技術として、各文節における適切な助詞を推定する手法の開発に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究実施計画に従って、従来の語順整序手法にニューラル言語モデルを組み込んだ手法の開発を推進し、一定の成果を得ることができた。また、読点挿入・語順整序・係り受け解析を同時実行するアルゴリズムの開発に前倒して取り組み、2種類のアルゴリズムの考案と実装及び評価実験まで実施した。助詞換言手法を検討するため、各文節における適切な助詞を推定する手法の開発を推進した。これら各手法に対する詳細な評価や考察がやや遅れている。 その他、本研究課題の関連研究として、ニューラルネットワークを用いた日本語講演テキストへの改行挿入手法や、残存文長の推定手法の開発、残存文長を考慮した逐次的改行挿入手法の開発、漸進的係り受け解析に関する研究を推進した。さらに、読みにくい文の一つである平仮名文に対して、高精度かつ実用的な速度で解析可能な形態素解析器を開発した。 なお、研究実施計画では、話し言葉や即興で生成した書き言葉と、それらを人手で読みやすく整形した文のペアの収集を予定していたが、その収集方法や代替方法を再度検討することとし、前述の各種手法の開発を優先して実施している。
|
Strategy for Future Research Activity |
引き続き、語順整序手法にニューラル言語モデルを組み込んだ手法や、トポロジカルソートを用いた語順整序手法、読点挿入・語順整序・係り受け解析を同時実行する手法の開発を推進し、これら各手法の詳細な評価や考察を進める予定である。また、助詞推定に関する研究を推進する予定である。 その他、本研究課題の関連研究として、引き続き、ニューラルネットワークを用いた日本語講演テキストへの改行挿入手法や漸進的係り受け解析に関する研究を推進する予定である。
|
Report
(4 results)
Research Products
(26 results)