2022 Fiscal Year Research-status Report
Novels and Data Sciences: Mindscape Seen in Language
Project/Area Number |
20K20699
|
Research Institution | Kobe University |
Principal Investigator |
石川 慎一郎 神戸大学, 大学教育推進機構, 教授 (90320994)
|
Project Period (FY) |
2020-07-30 – 2024-03-31
|
Keywords | 日本語コーパス / 小説コーパス / 日英対照研究 / 対照文体論 / 計量文体論 |
Outline of Annual Research Achievements |
【目的】本研究では、Brown Corpusおよび関連コーパスに収録された1960年代~2000年代の英米小説データと比較しうる日本語小説データの時系列的な収集を目指した。 【コーパス構築】プロジェクトでは、1961年、1971年、1981年、1991年、2001年、2011年、2021年の7つのデータポイントを定め、各年に発行された「文学界」(文藝春秋)、「群像」(講談社)、「新潮」(新潮社)に掲載された小説作品217本(各5,000字)を収集した。サンプリング方法は、米語のスナップショット・コーパスの代表格であるBrown Corpusに準じる。ゆえに、同じサンプリング基準を採用しているBrown (1961, US), Frown (1992, US), Crown (2009, UK), LOB (1961, UK), FLOB (1991, UK), BE06 (2006, UK), CLOB (2009 , UK) などと直接的な比較が可能である。収集した日本語小説資料は、電子化してタグ付けを行い、1961-2021 Japanese General Fiction Corpus (6121JFIC)としてリリースした。同コーパスは、オンライン検索サイト上で使用可能である。 【コーパスの特徴】6121JFICには、日本語のオリジナルテキストに加え、2つのAI翻訳システムによって自動生成された原著作物の英訳が含まれている。これにより、6121JFICは、(1)現代日本語・日本語小説の60年間にわたる経年変化研究、および、(2)日本語小説(の英訳データ)と同時代の英米小説の言語・イメージ・文体・表現の比較研究、の両面に使用できるデータとなった。なお、現在、作業者による形態素解析と品詞判定の妥当性検証を実行中で、2023年度末に修正済みデータの公開を予定している。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
収集したデータの言語資料としての妥当性を担保するには、データの形態素解析および品詞判定結果を手作業で検証する必要があったが、この適任者の選定に時間を要し、作業発注がが当初よりずれ込んだ。このため、事業期間を1年間延長することとなったが、延長後の期限までには、検証作業が終了し、修正済みデータの最終公開が可能になる予定である。
|
Strategy for Future Research Activity |
上述のように、現在、収集した日本語データについて、機械による自動形態素解析および品詞判定結果を手作業で検証する作業を進めている。事業期間を1年間延長することとなったが、延長後の期限までには、検証作業が終了し、修正済みデータの最終公開が可能になる予定である。あわせて、修正済みデータの分析結果をふまえて論文を執筆し、海外で発表する予定である。
|
Causes of Carryover |
収集したテキストの品詞タグ付けについて、手作業で行う検証・修正作業が、作業者の選定および作業実施に当初想定以上に時間がかかったため。
|
Research Products
(4 results)