研究課題/領域番号 |
21K00554
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分02070:日本語学関連
|
研究機関 | 筑波大学 |
研究代表者 |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,290千円 (直接経費: 3,300千円、間接経費: 990千円)
2023年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2021年度: 1,690千円 (直接経費: 1,300千円、間接経費: 390千円)
|
キーワード | 論文コーパス / XMLコーパス / アカデミック・ライティング / 学術論文 / コーパス |
研究開始時の研究の概要 |
大学初年次における汎学術分野的、基礎的なライティング教育の研究に活用するために、言語学的情報を付与した分野横断的な学術論文コーパスを構築する。大学のリポジトリから紀要論文を収集し、そこからテキストデータ、文書構造付き XMLデータ、形態論・係り受け情報データを作成する。このデータと既に構築済みの児童作文コーパスなどのデータを比較し、学術論文における語彙、文法、談話構造、文章構造、引用や出典に関する分野依存的な文化の違いなどを分析し、多様な専門分野の学生を対象とするライティング指導のための可視的資料の構築を目指す。
|
研究実績の概要 |
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。 2023年度は試験的に論文の収集とXMLコーパス化を行った。論文の収集はクローリングによって行うことを想定していたが、書誌情報とPDFの取り込みが可能な文献管理ソフトウェアを利用して手作業で行った方が間違いが少なく、かつ作業コストもそれほど高くないと考えられるため、手作業で行うこととし、特定の紀要に収録された直近3年分の論文をサンプルとして収集した。PDFからコーパスを構築する工程については、従来PDFからよい精度で整形的なテキストデータを抽出できるツールが見当たらなかったことと、テキストデータに対してXMLタグを付与する作業のコストが課題だったが、近年登場した生成系AIが相当高い精度でその両方の作業を行えることが分かった。そこで生成系AIでXMLデータを作成した後、人手により修正することでコーパスを構築する見通しを立てた。ただし生成系AIの種類によって精度、トークン数、APIの仕様、コストなどに違いがあり、また出力するXMLの形式によって人手による修正作業の効率も変わるものと考えられるため、具体的な方針の策定のために試行を進めているところである。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
複数の教育組織における教育・運営業務、オンライン授業から対面授業への切り替え、他の研究プロジェクトの遅延、テニュア審査の都合などの複合的な理由により、特に短期的な業績に結びつきにくいコーパス構築の研究に対して十分なエフォートを確保することができなかった。
|
今後の研究の推進方策 |
論文の収集とXMLコーパス化のための工程および効率化の方法について、おおよその見通しを立てることができたため、その方針に沿って作業を進める。次年度は作業者を雇用して論文の収集、AIによる電子化、人手修正、形態素解析などの作業を進め、研究利用可能な論文コーパスのβ版の構築を目指す。
|