研究課題/領域番号 |
21K00554
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 筑波大学 |
研究代表者 |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
研究課題ステータス |
交付 (2022年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 論文コーパス / XMLコーパス / アカデミック・ライティング / 学術論文 / コーパス |
研究開始時の研究の概要 |
大学初年次における汎学術分野的、基礎的なライティング教育の研究に活用するために、言語学的情報を付与した分野横断的な学術論文コーパスを構築する。大学のリポジトリから紀要論文を収集し、そこからテキストデータ、文書構造付き XMLデータ、形態論・係り受け情報データを作成する。このデータと既に構築済みの児童作文コーパスなどのデータを比較し、学術論文における語彙、文法、談話構造、文章構造、引用や出典に関する分野依存的な文化の違いなどを分析し、多様な専門分野の学生を対象とするライティング指導のための可視的資料の構築を目指す。
|
研究実績の概要 |
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。 昨年度以来、論文のインデクス作成、論文PDF収集の自動化やOCRなどについて検討を進めているが、本年度は既にテキストが埋め込まれているPDFを対象として、PDFファイルからテキストデータを抽出・整形する方法について検討した。PDFをテキストファイルに変換するツールとしてはpdftotextなどのコマンドラインツールがあるが、出力されるデータは断片化されたテキストの羅列であるため、構造化されたテキストとして整形するためには相当の作業量が必要になる。PDFからのテキスト抽出を目的とした商用ソフトにはGUIでテキストブロックを特定した上で抽出処理を行えるものもあるが、多数のファイルを処理することを考えるとスクリプト処理で自動化できることが望ましい。現状、有力な選択肢はPythonのPDFminerライブラリであり、行の認識が直感に合い、テキストブロックの座標情報も出力されるため、座標やインデントを手がかりとした整形処理の自動化が期待できる。別の有望な選択肢としてはGPTなどの言語モデルの利用であり、ChatGPTを用いたごく限定的なテストでは、タイトル、著者、見出し、段落などの認識をよい精度で行えるようである。現在は、これらのツールを利用して構造化されたテキストファイルの生成の自動化を試行しているところである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
エフォートの確保に苦労しており、本研究に十分な時間を割り当てられていない。
|
今後の研究の推進方策 |
論文データの収集、テキストデータの抽出・整形、文書構造のアノテーションを行う。基本的な研究計画に変更はないが、一連の作業を可能な限り自動化し、効率化を図る。比較的少数のデータを対象としてコーパスの構築を行い、完成までのシークエンスを確立する。研究スケジュールの再構築とマイルストーンの設定を行い、また予備的な調査をRAに委託してエフォートの不足を補うなどして、研究を着実に進められる環境を整えたい。
|