Project/Area Number |
21K00554
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2022: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2021: ¥1,690,000 (Direct Cost: ¥1,300,000、Indirect Cost: ¥390,000)
|
Keywords | 論文コーパス / XMLコーパス / アカデミック・ライティング / 学術論文 / コーパス |
Outline of Research at the Start |
大学初年次における汎学術分野的、基礎的なライティング教育の研究に活用するために、言語学的情報を付与した分野横断的な学術論文コーパスを構築する。大学のリポジトリから紀要論文を収集し、そこからテキストデータ、文書構造付き XMLデータ、形態論・係り受け情報データを作成する。このデータと既に構築済みの児童作文コーパスなどのデータを比較し、学術論文における語彙、文法、談話構造、文章構造、引用や出典に関する分野依存的な文化の違いなどを分析し、多様な専門分野の学生を対象とするライティング指導のための可視的資料の構築を目指す。
|
Outline of Annual Research Achievements |
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。 2023年度は試験的に論文の収集とXMLコーパス化を行った。論文の収集はクローリングによって行うことを想定していたが、書誌情報とPDFの取り込みが可能な文献管理ソフトウェアを利用して手作業で行った方が間違いが少なく、かつ作業コストもそれほど高くないと考えられるため、手作業で行うこととし、特定の紀要に収録された直近3年分の論文をサンプルとして収集した。PDFからコーパスを構築する工程については、従来PDFからよい精度で整形的なテキストデータを抽出できるツールが見当たらなかったことと、テキストデータに対してXMLタグを付与する作業のコストが課題だったが、近年登場した生成系AIが相当高い精度でその両方の作業を行えることが分かった。そこで生成系AIでXMLデータを作成した後、人手により修正することでコーパスを構築する見通しを立てた。ただし生成系AIの種類によって精度、トークン数、APIの仕様、コストなどに違いがあり、また出力するXMLの形式によって人手による修正作業の効率も変わるものと考えられるため、具体的な方針の策定のために試行を進めているところである。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
複数の教育組織における教育・運営業務、オンライン授業から対面授業への切り替え、他の研究プロジェクトの遅延、テニュア審査の都合などの複合的な理由により、特に短期的な業績に結びつきにくいコーパス構築の研究に対して十分なエフォートを確保することができなかった。
|
Strategy for Future Research Activity |
論文の収集とXMLコーパス化のための工程および効率化の方法について、おおよその見通しを立てることができたため、その方針に沿って作業を進める。次年度は作業者を雇用して論文の収集、AIによる電子化、人手修正、形態素解析などの作業を進め、研究利用可能な論文コーパスのβ版の構築を目指す。
|