• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2014 年度 実施状況報告書

近代口語文翻訳小説コーパスの構築と計量的文体研究

研究課題

研究課題/領域番号 25770178
研究機関大学共同利用機関法人人間文化研究機構国立国語研究所

研究代表者

小西 光  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 研究員 (30646592)

研究期間 (年度) 2013-04-01 – 2016-03-31
キーワード文章・文体 / コーパス / 近代語 / 翻訳小説 / 言文一致
研究実績の概要

研究計画2年目となる本年度は,以下の3点を行った。
(1)初年度に選定した資料についてテキストデータ化・形態素解析したデータの短単位人手修正が完了した。当初予定していた『国定教科書第1期・第2期』のコーパス化については、所属機関でのコーパス化が検討されていたため、予定を変更して別作品1作品を新たに選定しなおした。この1作品については前述の検討時期の関係上、構築が遅れているため来年度前半の整備となる。
(2)節情報の認定基準について、各先行研究をベースとしながら基準を90種に仮策定し、全データのうち半数についてそれらを元にした節情報のアノテーションをおこなった。分類については近代語に現れる節境界の認定等検討の余地があるため、残り半数について付与を行いながら、より網羅的な基準を策定していく。
(3)言文一致体の文体特徴を明らかにするための統計的手法の試みとして、本予算にて構築中の「近代口語文翻訳小説コーパス」コーパスと国立国語研究所による『太陽コーパス』『近代女性雑誌コーパス』と文書間類似度(コサイン類似度)を用いて比較した分析結果を「第7回コーパス日本語学ワークショップ」にて発表し、有意義な意見交換をすることができた。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

平成25年度から行っている近代口語文翻訳小説コーパスの構築は、7割ほど完了している。しかし、平成26年度に構築を予定していた国定教科書データの整備と所属機関のプロジェクトで実施するデータ整備内容について重複の可能性があり、一時的に作業を中断し、計画変更の必要性を検討したために、研究計画にわずかながらの遅れが発生している。そのため、本プロジェクトの補助事業期間延長承認申請を行い、来年度にかけて研究計画の変更を行った。以上のことより、現時点で当該研究計画はやや遅延していた状況ではあるが、補助事業期間の延長と研究計画の変更により、目標としていた達成度に到達する予定となっている。

今後の研究の推進方策

(1)今年度構築予定だった残り1作品のコーパスデータの整備ならびにアノテーション(精度98%)を完了させる。
(2)本研究計画で構築したデータならびに明治30・40年代のコーパスデータをもとに、節アノテーションをベースとした統計的分析手法による文体分析を試みる。
(3)多くの人がアクセスしやすいWeb上にてコーパスデータの公開を行い、利用性の高い高品質なデータを提供する。

次年度使用額が生じた理由

近代口語文翻訳小説コーパスの構築中であるが、今年度科研費で予定していた国定教科書の整備と所属機関のプロジェクトで実施する部分に重複の可能性があり、一時的に作業を中断し計画変更の必要性を検討するために未使用額が生じた。

次年度使用額の使用計画

所属機関で実施するプロジェクトとは、重複しない部分を整備することとし、未使用額はその経費に充てることとしたい。

  • 研究成果

    (1件)

すべて 2015

すべて 学会発表 (1件)

  • [学会発表] 近代翻訳小説を資料とした品詞比率と文書間類似度による明治中期口語文体分析2015

    • 著者名/発表者名
      小西 光
    • 学会等名
      第7回コーパス日本語学ワークショップ
    • 発表場所
      国立国語研究所
    • 年月日
      2015-03-10 – 2015-03-11

URL: 

公開日: 2016-06-01  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi