• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実施状況報告書

言語から見た日米マインドスケープ比較:データサイエンス志向型小説研究の試行

研究課題

研究課題/領域番号 20K20699
研究機関神戸大学

研究代表者

石川 慎一郎  神戸大学, 大学教育推進機構, 教授 (90320994)

研究期間 (年度) 2020-07-30 – 2024-03-31
キーワード日本語コーパス / 小説コーパス / 日英対照研究 / 対照文体論 / 計量文体論
研究実績の概要

【目的】本研究では、Brown Corpusおよび関連コーパスに収録された1960年代~2000年代の英米小説データと比較しうる日本語小説データの時系列的な収集を目指した。
【コーパス構築】プロジェクトでは、1961年、1971年、1981年、1991年、2001年、2011年、2021年の7つのデータポイントを定め、各年に発行された「文学界」(文藝春秋)、「群像」(講談社)、「新潮」(新潮社)に掲載された小説作品217本(各5,000字)を収集した。サンプリング方法は、米語のスナップショット・コーパスの代表格であるBrown Corpusに準じる。ゆえに、同じサンプリング基準を採用しているBrown (1961, US), Frown (1992, US), Crown (2009, UK), LOB (1961, UK), FLOB (1991, UK), BE06 (2006, UK), CLOB (2009 , UK) などと直接的な比較が可能である。収集した日本語小説資料は、電子化してタグ付けを行い、1961-2021 Japanese General Fiction Corpus (6121JFIC)としてリリースした。同コーパスは、オンライン検索サイト上で使用可能である。
【コーパスの特徴】6121JFICには、日本語のオリジナルテキストに加え、2つのAI翻訳システムによって自動生成された原著作物の英訳が含まれている。これにより、6121JFICは、(1)現代日本語・日本語小説の60年間にわたる経年変化研究、および、(2)日本語小説(の英訳データ)と同時代の英米小説の言語・イメージ・文体・表現の比較研究、の両面に使用できるデータとなった。なお、現在、作業者による形態素解析と品詞判定の妥当性検証を実行中で、2023年度末に修正済みデータの公開を予定している。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

収集したデータの言語資料としての妥当性を担保するには、データの形態素解析および品詞判定結果を手作業で検証する必要があったが、この適任者の選定に時間を要し、作業発注がが当初よりずれ込んだ。このため、事業期間を1年間延長することとなったが、延長後の期限までには、検証作業が終了し、修正済みデータの最終公開が可能になる予定である。

今後の研究の推進方策

上述のように、現在、収集した日本語データについて、機械による自動形態素解析および品詞判定結果を手作業で検証する作業を進めている。事業期間を1年間延長することとなったが、延長後の期限までには、検証作業が終了し、修正済みデータの最終公開が可能になる予定である。あわせて、修正済みデータの分析結果をふまえて論文を執筆し、海外で発表する予定である。

次年度使用額が生じた理由

収集したテキストの品詞タグ付けについて、手作業で行う検証・修正作業が、作業者の選定および作業実施に当初想定以上に時間がかかったため。

  • 研究成果

    (4件)

すべて 2023 2022 その他

すべて 雑誌論文 (3件) (うちオープンアクセス 3件) 備考 (1件)

  • [雑誌論文] L2 英語学習者による説得型ロールプレイ発話の評価 : 評価指標間の関係性の解明と発話スタイル別サンプルの検討2023

    • 著者名/発表者名
      石川 慎一郎
    • 雑誌名

      統計数理研究所共同研究リポート

      巻: 465 ページ: 78~91

    • DOI

      10.24546/0100479388

    • オープンアクセス
  • [雑誌論文] 「小中高大生による日本語絵描写ストーリーライティングコーパス」(JASWRIC)の構築:L1/L2日本語研究の新しい資料として2023

    • 著者名/発表者名
      石川 慎一郎、友永 達也、大西 遼平、岡本 利昭、勝部 尚樹、川嶋 久予、岸本 達也、村中 礼子
    • 雑誌名

      言語資源ワークショップ発表論文集 = Proceedings of Language Resources Workshop

      巻: 1 ページ: 393~416

    • DOI

      10.15084/00003754

    • オープンアクセス
  • [雑誌論文] オープンサイエンス時代の言語系研究と教育 : プレプリントの公開をめぐって2022

    • 著者名/発表者名
      横山 詔一、石川 慎一郎
    • 雑誌名

      言語・情報・テクスト : 東京大学大学院総合文化研究科言語情報科学専攻紀要

      巻: 29 ページ: 67~80

    • DOI

      10.15083/0002005966

    • オープンアクセス
  • [備考] 6121JFICウェブサイト

    • URL

      https://language.sakura.ne.jp/jfic/index.html

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi