2022 Fiscal Year Research-status Report
アカデミック・ライティング研究のための日本語学術論文コーパス構築
Project/Area Number |
21K00554
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 論文コーパス / XMLコーパス / アカデミック・ライティング |
Outline of Annual Research Achievements |
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。 昨年度以来、論文のインデクス作成、論文PDF収集の自動化やOCRなどについて検討を進めているが、本年度は既にテキストが埋め込まれているPDFを対象として、PDFファイルからテキストデータを抽出・整形する方法について検討した。PDFをテキストファイルに変換するツールとしてはpdftotextなどのコマンドラインツールがあるが、出力されるデータは断片化されたテキストの羅列であるため、構造化されたテキストとして整形するためには相当の作業量が必要になる。PDFからのテキスト抽出を目的とした商用ソフトにはGUIでテキストブロックを特定した上で抽出処理を行えるものもあるが、多数のファイルを処理することを考えるとスクリプト処理で自動化できることが望ましい。現状、有力な選択肢はPythonのPDFminerライブラリであり、行の認識が直感に合い、テキストブロックの座標情報も出力されるため、座標やインデントを手がかりとした整形処理の自動化が期待できる。別の有望な選択肢としてはGPTなどの言語モデルの利用であり、ChatGPTを用いたごく限定的なテストでは、タイトル、著者、見出し、段落などの認識をよい精度で行えるようである。現在は、これらのツールを利用して構造化されたテキストファイルの生成の自動化を試行しているところである。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
エフォートの確保に苦労しており、本研究に十分な時間を割り当てられていない。
|
Strategy for Future Research Activity |
論文データの収集、テキストデータの抽出・整形、文書構造のアノテーションを行う。基本的な研究計画に変更はないが、一連の作業を可能な限り自動化し、効率化を図る。比較的少数のデータを対象としてコーパスの構築を行い、完成までのシークエンスを確立する。研究スケジュールの再構築とマイルストーンの設定を行い、また予備的な調査をRAに委託してエフォートの不足を補うなどして、研究を着実に進められる環境を整えたい。
|
Causes of Carryover |
計画が遅れており、作業者を雇用して人手で作業する段階に到達できていないため。繰り越した予算は人件費、DeepLやOpenAIなどのサブスクリプション、論文公開費として使用する。ローカル環境でGPUを使用する高負荷処理を行う必要が生じた場合、予算の一部を端末の購入に充てる可能性がある。
|