日本語とその変種における外来語・語彙層・借用の形式的研究
Project/Area Number |
20K00641
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 02070:Japanese linguistics-related
|
Research Institution | University of Tsukuba |
Principal Investigator |
田川 拓海 筑波大学, 人文社会系, 准教授 (20634447)
|
Project Period (FY) |
2020-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | 外来語 / 語種・語彙層 / 借用 / 分散形態論 / 日本語 / 文章評価 / 生成AI / 俗語性 |
Outline of Research at the Start |
現代日本語(共通語)や方言を対象とし,分散形態論 (Distributed Morphology)という理論を用いて,和語か外来語かといった語彙に特有の情報とその位置付けを適切に捉えられるモデルを構築する。具体的には,国際的に見ても未開拓の領域である分散形態論を用いた語彙層(語種)の研究に取り組む。なかでも特に日本語における外来語を取り上げ,1) 関連現象の記述の整理,2) 外来語に関するデータベースの整備,3) 1, 2の豊富な事実群・データを基盤にした理論的分析とモデルの構築を行う。より実際の言語の実態に迫るために,Twitter等のwebから得られるデータや絵本も資料とする。
|
Outline of Annual Research Achievements |
2023年度は外来語を中心にさまざまな要素の動詞化を分散形態論を用いて分析した論文「動詞化形態の分布とル動詞のRoot派生分析」が論文集『構文形式と語彙情報』に、分散形態論の持つ理論的問題としてゼロ形態を取り上げその詳細な分類と問題の一部の解消についての分析を提案した論文「分散形態論におけるゼロ形態とその削減」が論文集『分散形態論の新展開』に掲載された。これらの初年度から進めてきた研究に加えて、本年度から生成AIを研究手法として用いた研究にも着手し、日本語の文章評価において語種の情報がどのように有効な指標かという点から日本語の文章における語種の役割について明らかにすることを試みている。本年度はその準備段階として生成AIによる英語の自動文章評価と言語的特徴量の関係について検討した口頭発表 "Assessment of ChatGPT's Validity in Scoring Essays by Foreign Language Learners of Japanese and English" 15th International Congress on Advanced Applied Informatics において、日本語の文章評価における言語的特徴量の関連について分析した口頭発表「L2日本語学習者によるエッセイ評価:語彙的多様性と文法的複雑性に焦点を置いて」を言語処理学会第30回年次大会において行った(いずれも共同研究)。さらに、『筑波日本語研究』に紀要論文「Twitter (X) 上の日本語を対象にした言語学的研究に関する覚え書き」が公刊された。これは現代において特に新規な外来語のデータを得る有力な場であるTwitterの最近の変化がその言語資料としての正確にどのような影響を与えるのかという点について整理・検討したものである。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は運営員を務めている複数の学会において新型コロナウイルス感染症対応のため数年間オンライン化が続いた後、はじめて対面形式(ハイブリッド対応を含む)での大会開催を行ったため、通常の学会運営に比べて多くのエフォートを割かなければならず、研究のエフォートを大きく回復させることはできなかった。整備されたコーパスからは得られないデータの取得先として有力な選択肢の1つであったTwitterは研究用のAPIの使用が不可能になり、本研究の予算規模では大量のデータを得ることができなくなったため、Twitterからのデータについては研究における位置付けを変え、また改めてTwitterのデータの資料性について検討した。代替となる新たなコーパスやユーザーの多いSNSはまだ登場していないため、当初予定していた外来語に関する大規模なデータの収集と整理については期限内には実現が難しく縮小する形で修正している。一部の予定していた研究手法の見通しが暗いため本年度から生成AIを用いた研究を新たに検討している。このアプローチについては大きな問題なく進めることができており、本研究課題の残り少ない時間内でも一定の研究成果を得られる見込みである。
|
Strategy for Future Research Activity |
個別の外来語・借用に対する記述的な研究とデータの収集、データベースの構築については、検討の結果、Twitterからの大量データの取得は行わないものとして研究計画を修正する(部分的なデータの取得には引き続き利用する)。前年度の方策としてあげたデータ元として有用であると考えられる特定の専門分野に関わっている個人や組織が作成した語彙リストや俗語辞典のような資料の選定とデータの収集および整理の方法をある程度まとめることができたので、本年度は実際のデータ収集と整理を進める。上述した新しい研究手法である自動文章評価に関するところだけでなく、収集したデータの整理とデータベース・コーパスの構築についても生成AIを用いる。すでにデータの一部を対象に試験的に実施した結果、たとえば派生動詞から派生元の名詞を自動的に推測するといったプロセスにおいて有用であることが確認できている。もちろん現在の制度では人間によるチェックと修正が必須であるが、全体の作業量を抑え限られた時間と研究費の範囲で計画を達成する助けになると期待される。
|
Report
(4 results)
Research Products
(13 results)