Project/Area Number |
21K00554
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 論文コーパス / XMLコーパス / アカデミック・ライティング / 学術論文 / コーパス |
Outline of Research at the Start |
大学初年次における汎学術分野的、基礎的なライティング教育の研究に活用するために、言語学的情報を付与した分野横断的な学術論文コーパスを構築する。大学のリポジトリから紀要論文を収集し、そこからテキストデータ、文書構造付き XMLデータ、形態論・係り受け情報データを作成する。このデータと既に構築済みの児童作文コーパスなどのデータを比較し、学術論文における語彙、文法、談話構造、文章構造、引用や出典に関する分野依存的な文化の違いなどを分析し、多様な専門分野の学生を対象とするライティング指導のための可視的資料の構築を目指す。
|
Outline of Annual Research Achievements |
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。 昨年度以来、論文のインデクス作成、論文PDF収集の自動化やOCRなどについて検討を進めているが、本年度は既にテキストが埋め込まれているPDFを対象として、PDFファイルからテキストデータを抽出・整形する方法について検討した。PDFをテキストファイルに変換するツールとしてはpdftotextなどのコマンドラインツールがあるが、出力されるデータは断片化されたテキストの羅列であるため、構造化されたテキストとして整形するためには相当の作業量が必要になる。PDFからのテキスト抽出を目的とした商用ソフトにはGUIでテキストブロックを特定した上で抽出処理を行えるものもあるが、多数のファイルを処理することを考えるとスクリプト処理で自動化できることが望ましい。現状、有力な選択肢はPythonのPDFminerライブラリであり、行の認識が直感に合い、テキストブロックの座標情報も出力されるため、座標やインデントを手がかりとした整形処理の自動化が期待できる。別の有望な選択肢としてはGPTなどの言語モデルの利用であり、ChatGPTを用いたごく限定的なテストでは、タイトル、著者、見出し、段落などの認識をよい精度で行えるようである。現在は、これらのツールを利用して構造化されたテキストファイルの生成の自動化を試行しているところである。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
エフォートの確保に苦労しており、本研究に十分な時間を割り当てられていない。
|
Strategy for Future Research Activity |
論文データの収集、テキストデータの抽出・整形、文書構造のアノテーションを行う。基本的な研究計画に変更はないが、一連の作業を可能な限り自動化し、効率化を図る。比較的少数のデータを対象としてコーパスの構築を行い、完成までのシークエンスを確立する。研究スケジュールの再構築とマイルストーンの設定を行い、また予備的な調査をRAに委託してエフォートの不足を補うなどして、研究を着実に進められる環境を整えたい。
|