2021 Fiscal Year Research-status Report
アカデミック・ライティング研究のための日本語学術論文コーパス構築
Project/Area Number |
21K00554
|
Research Institution | University of Tsukuba |
Principal Investigator |
今田 水穂 筑波大学, 人文社会系, 助教 (10579056)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 論文コーパス / XMLコーパス / アカデミック・ライティング |
Outline of Annual Research Achievements |
本研究は大学初年次のアカデミック・ライティング研究のために、多分野を横断した日本語論文コーパスを構築することを目的としている。コーパス化する論文は収集の容易さと多分野性の観点から大学リポジトリで公開されている紀要論文を中心とし、テキストコーパスとして構築した後、XMLタグによる文書構造のアノテーション、形態素解析・係り受け解析などを予定している。 初年度の計画としては収集する論文のインデクス作成、論文PDFの収集、テキストデータ化、XMLスキーマの構築などを予定していたが、現状としてはほとんど着手できていない。PDFファイル収集の自動化のためのライブラリ(Seleniumなど)や、PDFのテキスト化のためのOCRライブラリ(Tesseractなど)の調査を行なっている。また、学術分野によっては紀要が専ら組織の活動報告のために使われており、日本語論文の発表媒体として使われていない場合もあるため、収集に先駆けて収集対象のインデクスの構築が必要であり、その予備的な調査を進めている。また、テキスト化後の文書構造アノテーションは人手で行うが、そのスキーマはLaTeXの文書タグを参考に策定する予定であり、その仕様の理解のために非常勤研究員にLaTeXの研修を行わせた。実際のアノテーションは、XML文書用の文書型定義(DTD)を策定した上で、XMLエディタ(Oxygen XML Editorなど)を用いて実施する予定である。 本年度は学会発表、論文などによる研究成果の公開には至っていない。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
研究外の業務の増大のため十分な研究時間を確保できなかった。
|
Strategy for Future Research Activity |
論文の収集、テキスト化を自動化するためのプログラムを作成する。文書構造のアノテーションのためのXMLスキーマ(DTD)を定義し、アノテーションしたコーパスのサンプルを作成する。一連の工程をごく少数のデータで試行し、コーパス構築の見通しをつけるとともに、作業者のためのマニュアルを作成する。
|
Causes of Carryover |
計画の遅れのため、即時必要だった物品購入と人件費以外の予算を次年度に繰り越した。この予算は主にXMLエディタなどのソフトウェア購入費と作業者の人件費に使用する予定である。
|