• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2022 Fiscal Year Research-status Report

Novels and Data Sciences: Mindscape Seen in Language

Research Project

Project/Area Number 20K20699
Research InstitutionKobe University

Principal Investigator

石川 慎一郎  神戸大学, 大学教育推進機構, 教授 (90320994)

Project Period (FY) 2020-07-30 – 2024-03-31
Keywords日本語コーパス / 小説コーパス / 日英対照研究 / 対照文体論 / 計量文体論
Outline of Annual Research Achievements

【目的】本研究では、Brown Corpusおよび関連コーパスに収録された1960年代~2000年代の英米小説データと比較しうる日本語小説データの時系列的な収集を目指した。
【コーパス構築】プロジェクトでは、1961年、1971年、1981年、1991年、2001年、2011年、2021年の7つのデータポイントを定め、各年に発行された「文学界」(文藝春秋)、「群像」(講談社)、「新潮」(新潮社)に掲載された小説作品217本(各5,000字)を収集した。サンプリング方法は、米語のスナップショット・コーパスの代表格であるBrown Corpusに準じる。ゆえに、同じサンプリング基準を採用しているBrown (1961, US), Frown (1992, US), Crown (2009, UK), LOB (1961, UK), FLOB (1991, UK), BE06 (2006, UK), CLOB (2009 , UK) などと直接的な比較が可能である。収集した日本語小説資料は、電子化してタグ付けを行い、1961-2021 Japanese General Fiction Corpus (6121JFIC)としてリリースした。同コーパスは、オンライン検索サイト上で使用可能である。
【コーパスの特徴】6121JFICには、日本語のオリジナルテキストに加え、2つのAI翻訳システムによって自動生成された原著作物の英訳が含まれている。これにより、6121JFICは、(1)現代日本語・日本語小説の60年間にわたる経年変化研究、および、(2)日本語小説(の英訳データ)と同時代の英米小説の言語・イメージ・文体・表現の比較研究、の両面に使用できるデータとなった。なお、現在、作業者による形態素解析と品詞判定の妥当性検証を実行中で、2023年度末に修正済みデータの公開を予定している。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

収集したデータの言語資料としての妥当性を担保するには、データの形態素解析および品詞判定結果を手作業で検証する必要があったが、この適任者の選定に時間を要し、作業発注がが当初よりずれ込んだ。このため、事業期間を1年間延長することとなったが、延長後の期限までには、検証作業が終了し、修正済みデータの最終公開が可能になる予定である。

Strategy for Future Research Activity

上述のように、現在、収集した日本語データについて、機械による自動形態素解析および品詞判定結果を手作業で検証する作業を進めている。事業期間を1年間延長することとなったが、延長後の期限までには、検証作業が終了し、修正済みデータの最終公開が可能になる予定である。あわせて、修正済みデータの分析結果をふまえて論文を執筆し、海外で発表する予定である。

Causes of Carryover

収集したテキストの品詞タグ付けについて、手作業で行う検証・修正作業が、作業者の選定および作業実施に当初想定以上に時間がかかったため。

  • Research Products

    (4 results)

All 2023 2022 Other

All Journal Article (3 results) (of which Open Access: 3 results) Remarks (1 results)

  • [Journal Article] L2 英語学習者による説得型ロールプレイ発話の評価 : 評価指標間の関係性の解明と発話スタイル別サンプルの検討2023

    • Author(s)
      石川 慎一郎
    • Journal Title

      統計数理研究所共同研究リポート

      Volume: 465 Pages: 78~91

    • DOI

      10.24546/0100479388

    • Open Access
  • [Journal Article] 「小中高大生による日本語絵描写ストーリーライティングコーパス」(JASWRIC)の構築:L1/L2日本語研究の新しい資料として2023

    • Author(s)
      石川 慎一郎、友永 達也、大西 遼平、岡本 利昭、勝部 尚樹、川嶋 久予、岸本 達也、村中 礼子
    • Journal Title

      言語資源ワークショップ発表論文集 = Proceedings of Language Resources Workshop

      Volume: 1 Pages: 393~416

    • DOI

      10.15084/00003754

    • Open Access
  • [Journal Article] オープンサイエンス時代の言語系研究と教育 : プレプリントの公開をめぐって2022

    • Author(s)
      横山 詔一、石川 慎一郎
    • Journal Title

      言語・情報・テクスト : 東京大学大学院総合文化研究科言語情報科学専攻紀要

      Volume: 29 Pages: 67~80

    • DOI

      10.15083/0002005966

    • Open Access
  • [Remarks] 6121JFICウェブサイト

    • URL

      https://language.sakura.ne.jp/jfic/index.html

URL: 

Published: 2023-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi