語順整序との同時実行に基づく読みにくい文の整形処理

研究課題

研究課題/領域番号	19K12127
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	東京電機大学
研究代表者	大野誠寛東京電機大学, 未来科学部, 教授 (20402472)
研究期間 (年度)	2019-04-01 – 2025-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円) 2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円) 2021年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円) 2020年度: 780千円 (直接経費: 600千円、間接経費: 180千円) 2019年度: 780千円 (直接経費: 600千円、間接経費: 180千円)
キーワード	言語生成 / 整形処理 / 言い換え / 構文解析 / 係り受け解析 / 話し言葉処理 / 読点挿入 / 語順整序 / 改行挿入 / 字幕生成 / 助詞推定 / 文字列予測 / 自然言語処理
研究開始時の研究の概要	本研究では、議事録や科学技術論文、製品マニュアル、ビジネスメール等における作文支援技術として、話し言葉や即興で生成された書き言葉に頻出する読みにくい文を読みやすく整形する手法を開発する。その特徴は、整形処理の中心に語順整序を置き、読みやすい位置への読点挿入や適切な助詞への言い換えを、語順整序と同時実行する点にある。また、その際に、RNN言語モデルを有効活用する点にある。
研究実績の概要	本研究では、議事録や科学技術論文、製品マニュアル、ビジネスメール等における作文支援技術として、話し言葉や即興で生成された書き言葉に頻出する読みにくい文を読みやすく整形する手法を開発する。令和5年度は以下の4項目を実施した。（１）Shift-Reduce法に基づいて係り受け解析・語順整序・読点挿入を同時実行する手法の開発を推進した。具体的には、各時点の操作選択においてBERTを用いた分類モデルを導入するとともに、処理途中で非文が生成されることを回避すべく、従来の拡張Shift-Reduceアルゴリズムにおいて、同じ文節に係る2文節間でのみ語順入替を許すように変更することにより、精度向上を図った。（２）話し言葉を読みやすい字幕に整形するための要素技術として、漸進的係り受け解析と残存文長推定に基づく逐次的な改行挿入手法の開発を行った。文節が入力されるごとに、改行挿入判定と残存文長推定をBERTを用いて同時実行し、その際の改行挿入判定において、漸進的係り受け解析から得られる構文情報を用いることにより，逐次的な改行挿入における精度向上を図った。（３）読みやすい位置での逐次的な改行挿入等への応用を目的に、漸進的係り受け解析技術の開発を推進した。具体的には、話し手の発話の予測手法の開発に取り組むとともに、発話の予測を考慮しつつ漸進的係り受け解析を行う手法の開発に取り組んだ。（４）読みやすい文への整形を実現するための基盤技術として、各文節における適切な助詞列を推定する手法の開発に取り組んだ。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由研究実施計画に従って、従来の語順整序手法にBERTを組み込んだ手法の開発を推進し、一定の成果を得ることができた。また、読点挿入・語順整序・係り受け解析を同時実行するアルゴリズムの開発に前倒して取り組み、2種類のアルゴリズムの考案と実装及び評価実験まで実施した。助詞換言手法を検討するため、各文節における適切な助詞列を推定する手法の開発を推進した。これら各手法に対する詳細な評価や考察がやや遅れている。その他、本研究課題の関連研究として、BERTを用いた日本語講演テキストへの改行挿入手法や、残存文長の推定手法の開発、漸進的係り受け解析に関する研究、残存文長と漸進的係り受け解析結果を考慮した逐次的改行挿入手法の開発を推進した。さらに、読みにくい文の一つである平仮名文に対して、高精度かつ実用的な速度で解析可能な形態素解析器を開発した。なお、研究実施計画では、話し言葉や即興で生成した書き言葉と、それらを人手で読みやすく整形した文のペアの収集を予定していたが、検討の結果、それらの収集は行わず、前述の各種手法の開発を優先して実施している。
今後の研究の推進方策	引き続き、ニューラル言語モデルを用いて読点挿入・語順整序・係り受け解析を同時実行する手法の開発を推進し、これら各手法の詳細な評価や考察を進める予定である。また、ニューラル言語モデルを用いた助詞推定に関する研究を推進する予定である。その他、本研究課題の関連研究として、引き続き、ニューラル言語モデルを用いた日本語講演テキストへの改行挿入手法や漸進的係り受け解析に関する研究を推進する予定である。

報告書

(5件)

研究成果
(30件)

すべて 2024 2023 2022 2021 2020 2019 その他

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件) 学会発表 (28件) (うち国際学会 3件) 備考 (1件)

[雑誌論文] RNNとロジスティック回帰を用いた平仮名文の逐次的な形態素解析2022
- 著者名/発表者名
  森山柊平，大野誠寛
- 雑誌名
  
  自然言語処理,
  
  巻: 29
- 関連する報告書
  2021 実施状況報告書
- 査読あり / オープンアクセス
[学会発表] 処理途中での非文生成の回避を考慮した係り受け解析・語順整序・読点挿入の同時実行2024
- 著者名/発表者名
  荒木駿介, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 漸進的係り受け解析と残存文長推定に基づく講演文への逐次的な改行挿入2024
- 著者名/発表者名
  高橋晨成, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] 語りの傾聴における補完応答の生成のための話し手の発話の予測2024
- 著者名/発表者名
  海野博揮, 大野誠寛, 伊藤滉一朗, 松原茂樹
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Shift-Reduce法に基づく未入力トークン予測と漸進的係り受け解析の同時実行2024
- 著者名/発表者名
  橋本優希, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実施状況報告書
[学会発表] Bottom-up Japanese Word Ordering using BERT2023
- 著者名/発表者名
  Masato Yamazoe, Tomohiro Ohno, Shigeki Matsubara
- 学会等名
  Proceedings of the 15th International Conference on Agents and Artificial Intelligence (ICAART2023)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] Japanese Word Reordering based on Topological Sort2023
- 著者名/発表者名
  Peng Sun, Tomohiro Ohno, Shigeki Matsubara
- 学会等名
  Proceedings of the 15th International Conference on Agents and Artificial Intelligence (ICAART2023)
- 関連する報告書
  2022 実施状況報告書
- 国際学会
[学会発表] 漸進的係り受け解析結果を用いた講演文への逐次的な改行挿入2023
- 著者名/発表者名
  高橋晨成, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第85回全国大会講演論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] 漸進的係り受け解析におけるBERT を用いた未入力文節との構文的関係の同定2023
- 著者名/発表者名
  橋本優希, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第85回全国大会講演論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] 日本語文に対する係り受け解析・語順整序・読点挿入の同時実行2023
- 著者名/発表者名
  荒木駿介, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第85回全国大会講演論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] BERTを用いた日本語文のボトムアップ語順整序とその評価2023
- 著者名/発表者名
  山添壮登, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第29回年次大会発表論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] トポロジカルソートとBERTを用いた日本語文の語順整序2023
- 著者名/発表者名
  孫鵬, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第29回年次大会発表論文集
- 関連する報告書
  2022 実施状況報告書
[学会発表] BERTを用いた日本語文のボトムアップ語順整序2022
- 著者名/発表者名
  山添壮登, 大野誠寛, 松原茂樹
- 学会等名
  第21回情報科学技術フォーラム講演論文集 (FIT2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] トポロジカルソートに基づく日本語文の語順整序2022
- 著者名/発表者名
  孫鵬, 大野誠寛, 松原茂樹
- 学会等名
  第21回情報科学技術フォーラム講演論文集 (FIT2022)
- 関連する報告書
  2022 実施状況報告書
[学会発表] 残存文長を考慮した講演テキストへの逐次的な改行挿入2022
- 著者名/発表者名
  飯泉智朗, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第28回年次大会
- 関連する報告書
  2021 実施状況報告書
[学会発表] 残存文長を考慮したRNNによる逐次的な改行挿入2021
- 著者名/発表者名
  飯泉智朗, 大野誠寛, 松原茂樹
- 学会等名
  第20回情報科学技術フォーラム
- 関連する報告書
  2021 実施状況報告書
[学会発表] 言語モデルと構文情報を用いた日本語文のボトムアップ語順整序2021
- 著者名/発表者名
  山添壮登, 大野誠寛, 松原茂樹
- 学会等名
  第20回情報科学技術フォーラム
- 関連する報告書
  2021 実施状況報告書
[学会発表] Word Reordering and Comma Insertion Integrated with Shift-Reduce Dependency Parsing2021
- 著者名/発表者名
  Kota Miyachi, Tomohiro Ohno, Shigeki Matsubara
- 学会等名
  Proceedings of the 13th International Conference on Agents and Artificial Intelligence (ICAART2021)
- 関連する報告書
  2020 実施状況報告書
- 国際学会
[学会発表] 文末からのトップダウン係り受け解析との同時実行に基づく日本語文の語順整序と読点挿入2021
- 著者名/発表者名
  宮地航太, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第27回年次大会発表論文集
- 関連する報告書
  2020 実施状況報告書
[学会発表] 残存文長を考慮した講演テキストへの改行挿入2021
- 著者名/発表者名
  岩村由香, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第83回全国大会講演論文集
- 関連する報告書
  2020 実施状況報告書
[学会発表] 深層学習を用いた係り先の文字列予測2021
- 著者名/発表者名
  吉田富雅, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第83回全国大会講演論文集
- 関連する報告書
  2020 実施状況報告書
[学会発表] 読みやすい字幕生成のための講演テキストに対する改行挿入の改善2020
- 著者名/発表者名
  飯泉智朗, 大野誠寛, 松原茂樹
- 学会等名
  第19回情報科学技術フォーラム講演論文集 (FIT2020)
- 関連する報告書
  2020 実施状況報告書
[学会発表] 係り受け解析との同時実行に基づく日本語文の語順整序と読点挿入2020
- 著者名/発表者名
  宮地航太, 大野誠寛, 松原茂樹
- 学会等名
  言語処理学会第26回年次大会発表論文集
- 関連する報告書
  2019 実施状況報告書
[学会発表] 人間の漸進的言語処理能力の分析2020
- 著者名/発表者名
  後藤亮, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第82回全国大会講演論文集
- 関連する報告書
  2019 実施状況報告書
[学会発表] RNNLMとSVMを用いた日本語文の語順整序2020
- 著者名/発表者名
  高須恵, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第82回全国大会講演論文集
- 関連する報告書
  2019 実施状況報告書
[学会発表] 読みやすい字幕生成のためのRNN を用いた講演テキストへの改行挿入2020
- 著者名/発表者名
  飯泉智朗, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第82回全国大会講演論文集
- 関連する報告書
  2019 実施状況報告書
[学会発表] 漸進的な言語処理のための独話文に対する残存文長の推定2020
- 著者名/発表者名
  河村天暉, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第82回全国大会講演論文集
- 関連する報告書
  2019 実施状況報告書
[学会発表] 漸進的係り受け解析における未入力文節との構文的関係の同定2020
- 著者名/発表者名
  相津徹也, 大野誠寛, 松原茂樹
- 学会等名
  情報処理学会第82回全国大会講演論文集
- 関連する報告書
  2019 実施状況報告書
[学会発表] 漸進的な言語処理のためのRNNを用いた残存文長の推定とその評価2019
- 著者名/発表者名
  河村天暉, 大野誠寛, 松原茂樹
- 学会等名
  第18回情報科学技術フォーラム講演論文集
- 関連する報告書
  2019 実施状況報告書
[備考] 語順整序との同時実行に基づく読みにくい文の整形処理
- URL
  https://www.cll.im.dendai.ac.jp/~ohno/kaken/revision-word-reordering/index.html
- 関連する報告書
  2023 実施状況報告書 2022 実施状況報告書 2021 実施状況報告書 2020 実施状況報告書 2019 実施状況報告書

語順整序との同時実行に基づく読みにくい文の整形処理

研究代表者

大野 誠寛 東京電機大学, 未来科学部, 教授 (20402472)

4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)

現在までの達成度 (区分)

理由

報告書

研究成果

[雑誌論文] RNNとロジスティック回帰を用いた平仮名文の逐次的な形態素解析2022

著者名/発表者名

雑誌名

関連する報告書

[学会発表] 処理途中での非文生成の回避を考慮した係り受け解析・語順整序・読点挿入の同時実行2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 漸進的係り受け解析と残存文長推定に基づく講演文への逐次的な改行挿入2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 語りの傾聴における補完応答の生成のための話し手の発話の予測2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Shift-Reduce法に基づく未入力トークン予測と漸進的係り受け解析の同時実行2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] Bottom-up Japanese Word Ordering using BERT2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] Japanese Word Reordering based on Topological Sort2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 漸進的係り受け解析結果を用いた講演文への逐次的な改行挿入2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 漸進的係り受け解析におけるBERT を用いた未入力文節との構文的関係の同定2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] 日本語文に対する係り受け解析・語順整序・読点挿入の同時実行2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] BERTを用いた日本語文のボトムアップ語順整序とその評価2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] トポロジカルソートとBERTを用いた日本語文の語順整序2023

著者名/発表者名

学会等名

関連する報告書

[学会発表] BERTを用いた日本語文のボトムアップ語順整序2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] トポロジカルソートに基づく日本語文の語順整序2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 残存文長を考慮した講演テキストへの逐次的な改行挿入2022

著者名/発表者名

学会等名

関連する報告書

[学会発表] 残存文長を考慮したRNNによる逐次的な改行挿入2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] 言語モデルと構文情報を用いた日本語文のボトムアップ語順整序2021

著者名/発表者名

学会等名

関連する報告書

[学会発表] Word Reordering and Comma Insertion Integrated with Shift-Reduce Dependency Parsing2021

著者名/発表者名

学会等名

関連する報告書

大野誠寛東京電機大学, 未来科学部, 教授 (20402472)