アカデミックライティングのための接続表現と文末表現の共起分析と学習支援への活用

研究課題

研究課題/領域番号	23K00629
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分02090:日本語教育関連
研究機関	大阪大学
研究代表者	ホドシチェクボル大阪大学, 大学院人文学研究科(言語文化学専攻), 准教授 (10748768)
研究分担者	阿辺川武東京大学, 大学院教育学研究科(教育学部), 特任准教授 (00431776)
研究期間 (年度)	2023-04-01 – 2026-03-31
研究課題ステータス	交付 (2023年度)
配分額 *注記	4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円) 2025年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2024年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	文末表現 / ディスコース / 接続表現 / 学術論文 / 語用論 / 命題 / モダリティ / アカデミックライティング支援 / 接続表現と文末表現の共起 / 学術論文コーパス / 談話分析 / 日本語学習者
研究開始時の研究の概要	本研究は，日本語を外国語とする大学生や研究者が専門分野で必要とされるアカデミックライティング（論文やレポートなどの学術的な文章の書き方）をウエブアプリで支援することを目指す。具体的には，文と文の関係を読み手にわかりやすくする「接続表現」と，書き手の確信度などを表す「文末表現」に焦点を当て，専門家の論文や学習者作文を含む大規模な言語データを統計処理し，日本語学習者が適切な表現を使えるように支援する。
研究実績の概要	学術論文テキストデータから文の最後に使われる表現（文末表現）と文と文をつなぐ表現（接続表現）を抽出するプログラムを開発し，GitHubというプラットフォーム上で一般にアクセス可能として公開した（https://github.com/borh/dm-annotations）。このプログラムは，少数の学術論文の詳細な談話分析を基に，文末表現の定義と抽出方法を具体化したもので，任意のテキストに対し，文末表現と接続表現を抽出できる。本成果は「ディスコースからみた文末表現抽出」と題して，言語処理学会の第30回年次大会で発表した。具体的には以下の研究を行った。 1. 人文社会学と科学技術系の論文14本から文末表現の候補を選定した。各文を「接続表現」「命題（文の内容）」「文末表現」の3つの部分に分け，文末表現を命題の直後にくる文字列とした。日本語学習者がより適切な学術的表現を使用できるように支援することを目的として，各文末表現に対し，1-1. 学習者の書く意図に合わせて書き手の態度を基にした機能分類と，1-2. 様々な派生型に対応できる形態的項目分類という情報を付与した。 1-1. 機能分類については，語用論の立場から，「確定・存在」「推量・意志」「意志・措置行為」「認識」「可能（性）」「疑問」「否定（部分否定）」「願望・期待」「容認」「仮の処置」という10分類を確立した。 1-2. プログラムが文末表現を漏れなく抽出できるように，文末表現を最末尾辞から形態的に分類し，40の大分類と105の細分類項目に分けた。例えば，「確定・存在」機能分類にある「必要がある」「場合がある」（細分類）を「ある」（大分類）としてまとめ上げた。 2. 人文社会学と科学技術系の学術論文6,371件を使用して接続表現と文末表現を抽出し，学術分野ごとの使用傾向を分析した。
現在までの達成度 (区分)	現在までの達成度 (区分) 3: やや遅れている理由研究計画では，論文PDFのデータベース化作業をPDFのテキスト化プログラムとヒューリスティックを用いた後に人手で修正する予定であった。しかし，最新のドキュメント理解用の深層学習モデルが登場したことで，章や節を認識できるレイアウト解析と高度なテクスト及び読み取り順序の検出機能を持つこれらのモデルを利用することが当初の計画よりもPDF変換の質と量の向上が期待できると判断した。このため，2023年度は新たな深層学習モデルの選定と作業計画の試行を進め，PDFのテキスト化作業を一時中断した。これに伴い，人件費および謝金の予算を2024年から2025年度前半に移動し，コーパス開発のためのPDF収集と変換・点検作業に充てることにした。
今後の研究の推進方策	初年度での文末表現の認定作業と抽出プログラムを基に，接続表現と文末表現の関係性に注目し，それらがどのように共起するかを調査する。具体的には，ホドシチェクと阿辺川が言語処理と統計解析を，仁科とベケシュが定性的分析をそれぞれ担当する。同一文内での接続表現と文末表現の共起事例を調査し，自己相互情報量やDice係数といった共起尺度を用いて統計的に計算する。また，接続表現と文末表現の多様性についてエントロピーを計算し，尤もらしい表現リストを提示する。さらに，ジャンルごとに異なる共起対の傾向を分析する。次に，前後2文にわたる接続表現と文末表現およびそれらの論理構造を分析する。連続する2文の中で出現する接続表現と文末表現の組み合わせを抽出し，共起尺度が高い組や頻繁に出現する組を探し出す。これらの組が持つ論理構造を定量的・定性的に分析し，作文支援に役立てることを目指す。並行して，ドキュメント理解用の深層学習モデルと人手の点検・修正作業で学術論文のデータベース拡張を行い，正確なパラグラフ認定および章・節ごとの精密な分析ができるようにする。これらの分析結果は，2025年度に予定されている作文支援システムへの搭載に向けた基礎となる。接続表現と文末表現の共起を考慮した検索機能や，類義語提示機能の実装に役立てることが期待される。