研究課題/領域番号 |
21K00554
|
研究機関 | 筑波大学 |
研究代表者 |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 論文コーパス / XMLコーパス / アカデミック・ライティング |
研究実績の概要 |
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。 初年度の計画としては収集する論文のインデクス作成、論文PDFの収集、テキストデータ化、XMLスキーマの構築などを予定していたが、現状としてはほとんど着手できていない。PDFファイル収集の自動化のためのライブラリ(Seleniumなど)や、PDFのテキスト化のためのOCRライブラリ(Tesseractなど)の調査を行なっている。また、学術分野によっては紀要が専ら組織の活動報告のために使われており、日本語論文の発表媒体として使われていない場合もあるため、収集に先駆けて収集対象のインデクスの構築が必要であり、その予備的な調査を進めている。また、テキスト化後の文書構造アノテーションは人手で行うが、そのスキーマはLaTeXの文書タグを参考に策定する予定であり、その仕様の理解のために非常勤研究員にLaTeXの研修を行わせた。実際のアノテーションは、XML文書用の文書型定義(DTD)を策定した上で、XMLエディタ(Oxygen XML Editorなど)を用いて実施する予定である。 本年度は学会発表、論文などによる研究成果の公開には至っていない。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
研究外の業務の増大のため十分な研究時間を確保できなかった。
|
今後の研究の推進方策 |
論文の収集、テキスト化を自動化するためのプログラムを作成する。文書構造のアノテーションのためのXMLスキーマ(DTD)を定義し、アノテーションしたコーパスのサンプルを作成する。一連の工程をごく少数のデータで試行し、コーパス構築の見通しをつけるとともに、作業者のためのマニュアルを作成する。
|
次年度使用額が生じた理由 |
計画の遅れのため、即時必要だった物品購入と人件費以外の予算を次年度に繰り越した。この予算は主にXMLエディタなどのソフトウェア購入費と作業者の人件費に使用する予定である。
|