• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2021 年度 実績報告書

大規模日本語定型表現抽出と構造分析による帰納的文法再構築及び日本語教育への応用

研究課題

研究課題/領域番号 20H00096
研究機関東京外国語大学

研究代表者

芝野 耕司  東京外国語大学, その他部局等, 名誉教授 (50216024)

研究分担者 時田 朋子  実践女子大学, 人間社会学部, 講師 (00563355)
藤村 知子  東京外国語大学, 大学院国際日本学研究院, 教授 (20229040)
中村 美奈子  お茶の水女子大学, 基幹研究院, 准教授 (20345408)
大津 友美  東京外国語大学, 大学院国際日本学研究院, 准教授 (20437073)
佐野 洋  東京外国語大学, 大学院総合国際学研究院, 教授 (30282776)
藤森 弘子  帝京大学, 外国語学部, 教授 (50282778)
望月 源  東京外国語大学, 大学院総合国際学研究院, 准教授 (70313707)
鈴木 美加  東京外国語大学, 大学院国際日本学研究院, 教授 (90226556)
研究期間 (年度) 2020-04-01 – 2025-03-31
キーワードコーパス言語学 / N-gram分析 / 日本語定形表現 / Formulaic Sequence
研究実績の概要

これまで字幕付き地デジテキストを収集し、15億語以上の大規模話し言葉コーパスを構築するとともに、日本語話し言葉における定形表現の自動抽出を、情報学の始祖のShannon(1946)以来gramごとに扱われていたN-gramを、一文から単語単位で全N-gramを生成し、その文脈を行IDリストとして扱う独自の統合文脈単語N-gram分析をMapReduceで実現した。この独自分析法をリスト抽象化及び文字単位に拡張し、統合文脈文字N-gram分析及び隣接行列による構造分析によって、従来の欧米での文法理論の演繹的適用を中心とする日本語文法研究を、実際の言語運用に基盤を置く帰納的日本語研究へと革新するとともに、この帰納的日本語理解をもとにした大規模コーパスからの日本語教材開発を可能とするところに独自性および創造性がある。
システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、ビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実装を行った。また、定形表現をもとにした帰納的文法研究のため、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。
また、定形表現隣接頻度行列を生成し、教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発した。
日本語教育班では, Key phraseとしての検討を行った。活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件の検討を行った。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

システム・評価班では,MapReduceを用いた統合文脈N-gram分析にリスト抽象化を組み込むことによって、N-gramの最大値の制限をなくすためのプログラム開発及びビッグデータ処理のためのシステム構築を行うとともに、アイデア段階であるリスト抽象化の実証を行った。また、定形表現をもとにした帰納的文法研究のため、定形表現の抽出では同一文脈に関しては最長表現を取り出す処理を行っていることから、特定の定形表現をより短い定形表現を最長一致法で分割することにより、複合定形表現と含まれる定形表現が存在しない原子定形表現とに分析した(定形表現分析)。また、定形表現の前後の連接頻度からなる定形表現隣接頻度行列を生成する。同時に教材の素材となる特定の表現の存在行の前後指定した行数を取り出す教材素材取り出しシステムを開発した。
日本語教育班では,システム・評価班が生成する基礎データである定形表現分析及び定形表現隣接頻度行列の基礎データをKey phraseとしての検討及び日本語教育用文法の帰納的検討を行った。また、Key phraseとして適当かの検討を行った。また、教材素材取り出しシステムを利用して、検証用日本語教材の検討を行った。
基本的には、活用のない“名詞”、活用がなく、文法機能だけを担う“助詞・助動詞”、語尾が活用する“動詞”及び“形容詞”などの基本的な品詞の同定及びその隣接条件の検討を行った。。海外の大学の日本語学科との共同研究はコロナ禍のため実施できなかった。

今後の研究の推進方策

コロナ禍のため海外の研究機関との共同研究ができなかったので、今後はこの点を中心に推進する。

  • 研究成果

    (10件)

すべて 2022 2021

すべて 雑誌論文 (7件) 学会発表 (3件) (うち招待講演 1件)

  • [雑誌論文] 学習を認知・情意・精神運動の領域で捉える提案 : より見通しのきく日本語教育Can-do記述に向けて2022

    • 著者名/発表者名
      鈴木美加
    • 雑誌名

      国立国語研究所論集

      巻: 22 ページ: 71-88

    • DOI

      10.15084/00003514

  • [雑誌論文] 多国籍の学生と芸人・教師による漫才ワークショップ―「メディア日本語:メディアとメッセージ」授業における試み―2022

    • 著者名/発表者名
      鈴木美加、島岡学
    • 雑誌名

      日本語・日本学研究

      巻: 12 ページ: 99-115

  • [雑誌論文] Can-do型日本語学習用資源としてのアニメーション字幕の分析2022

    • 著者名/発表者名
      大河原龍太朗, 望月源
    • 雑誌名

      言語処理学会第28回年次大会

      巻: 28 ページ: 1690-1694

  • [雑誌論文] スタイルの違いに注目した脚本から小説への変換に関する一考察2022

    • 著者名/発表者名
      内田美友, 望月源
    • 雑誌名

      言語処理学会第28回年次大会

      巻: 28 ページ: 921-926

  • [雑誌論文] テレビ字幕データを用いた感情分析による「ある日の日本の気分」推定に関する研究2022

    • 著者名/発表者名
      イーフエイチー, 望月源
    • 雑誌名

      言語処理学会第28回年次大会

      巻: 28 ページ: 857-862

  • [雑誌論文] 思考表出のガイドとしての日本語マニュアル「表す日本語」の再考2021

    • 著者名/発表者名
      佐野洋
    • 雑誌名

      Japio YEAR BOOK 2021 寄稿集

      巻: 2021 ページ: 306-313

  • [雑誌論文] 現代スペイン語における主語後置の数理モデル化2021

    • 著者名/発表者名
      小林純一朗,佐野洋
    • 雑誌名

      JAECS 47th Conference(英語コーパス学会 第47回大会)

      巻: 47 ページ: 109-114

  • [学会発表] 「漫才ワークショップ」による学生の学び ―言語を相対的に捉えるネタ作りと即興創作体験―2022

    • 著者名/発表者名
      鈴木美加、島岡学
    • 学会等名
      2022年ブカレスト大学日本語教育シンポジウム「日本語再発見-日本語教育の現場から-」
  • [学会発表] 金融関連辞典と実務資料コーパスを用いた経済・金融分野の英語語彙リスト研究2021

    • 著者名/発表者名
      小谷尚子,佐野洋
    • 学会等名
      JAECS 47th Conference(英語コーパス学会 第47回大会)
  • [学会発表] 「隔たり」を置き、「隔たり」を減らす21世紀型の学びとは?―日本語教育における自律的な学びと協働学習を学習目標の3領域に照らして検討する―2021

    • 著者名/発表者名
      鈴木美加
    • 学会等名
      2021年韓国語日本語文学会冬季国際学術大会
    • 招待講演

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi