| 研究課題/領域番号 |
24K21359
|
| 研究種目 |
挑戦的研究(萌芽)
|
| 配分区分 | 基金 |
| 審査区分 |
中区分2:文学、言語学およびその関連分野
|
| 研究機関 | 名古屋大学 |
研究代表者 |
日比 嘉高 名古屋大学, 人文学研究科, 教授 (80334019)
|
| 研究期間 (年度) |
2024-06-28 – 2027-03-31
|
| 研究課題ステータス |
交付 (2024年度)
|
| 配分額 *注記 |
6,240千円 (直接経費: 4,800千円、間接経費: 1,440千円)
2026年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2025年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2024年度: 3,640千円 (直接経費: 2,800千円、間接経費: 840千円)
|
| キーワード | 大規模言語モデル / 文芸時評大系 / 本文データ / 量的解析 / LDA / 文芸時評 / デジタル・ヒューマニティーズ / 近代文学 |
| 研究開始時の研究の概要 |
本研究は、日本の明治期から昭和期の文芸時評を対象とし、大規模言語モデル等を用いた新たなテキスト解析手法を開発する。深層クラスタリング技術を用いることで、従来のクラスタリング手法では捉えきれなかった複雑な関係性や潜在的なテーマ性を明らかにする。これによって、特に文芸時評における意味論的・修辞的な特性、未知のテーマ的カテゴリの抽出、語彙・修辞などの継承関係の描出、以上の項目の歴史的変容や社会的文脈などを総合的に分析する。同じデータセットを大規模言語モデルと組み合わせ、解析や応答システムの構築を行う。これにより、文芸作品に対する未発見の洞察や、新たな文学的評価基準の提案、文芸時評の自動生成を試みる。
|
| 研究実績の概要 |
2024年度においては(1)データ設計と見積、(2)大規模言語モデル等を利用した研究の実践と検討を行った。 (1)データ設計に関しては、『文芸時評大系』の出版社であるゆまに書房の担当者、およびスキャニングとOCRを行う業者と複数回にわたってデータの設計の仕方、OCRの方法と精度、金額について検討を重ねた。おおむね方向性については合意にたどりつきつつあるものの、確定はしていないため、関連する予算の執行にはいたっていない。 (2)大規模言語モデル等を利用した研究の実践としては、文学作品の本文データを対象とした分析を行った。LDAという既存のトピック・モデリング手法を出発点においているが、その研究手法の吟味や実行スクリプトの作成において大規模言語モデルを利用している。これまでの研究過程でデータの前処理における小説ならではの問題(形態素解析で名刺を抽出した際の人名の処理に関わる問題など)、LDAが文脈を考慮せず基本的に単語の共起を元に計算していることの限界、出力結果の解釈が難しいことがままあるという問題などがわかっていたため、これを乗り越えるために、分析手法においても大規模言語モデルを利用することを検討し、作業を進めた。 また、大規模言語モデルの利用、そしてその社会的な浸透に付随する諸問題についても検討を行い、ソウル大学で行われたシンポジウムにおいて報告を行っている。これはテキストデータの分析を離れ、広くAIをめぐる社会的問題(バイアスや電力も含む)について幅広く考察したものである。
|
| 現在までの達成度 |
現在までの達成度
2: おおむね順調に進展している
理由
文芸時評大系に関わるデータ・セット作成については、いまだ関連予算の執行が行えていないものの、データの準備に時間がかかることは当初から予想していたことであった。購入の時期が初年度を超えてしまっていることは計画より遅くなっていると言えるものの、データの設計や関連業者との相談は進んでおり、おおむね順調といえる。 大規模言語モデルを利用したテキスト分析は、大きなターゲットである文芸時評大系の分析には入れていないものの、別のデータを使いながら分析手法については検討や勉強を進めており、こちらもおおむね順調といえる。
|
| 今後の研究の推進方策 |
まずは文芸時評大系の本文データを入手するための作業が最優先課題である。関連業者と相談をしながら、作業を進めたい。 本文データを入手したら、前処理に取りかかる。ここからは本格的な時評テキストの分析となる。大規模言語モデルが文脈を読めること、要約が得意であること、要素抽出にも使えることなどを踏まえながら、多角的な分析につなげていく。 年度の後半においては、研究会などでの進捗の報告も予定している。
|