• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

アイヌ語鵡川方言のフィールド調査およびデータの公開

Research Project

Project/Area Number 20K13009
Research InstitutionSapporo Gakuin University

Principal Investigator

岸本 宜久  札幌学院大学, 経済経営学部, 講師 (20848600)

Project Period (FY) 2020-04-01 – 2024-03-31
Keywordsアイヌ語 / フィールドデータ / AI文字起こし / AWS
Outline of Annual Research Achievements

2021年度は、本研究課題の中心的なデータとなる2012年から2020年までのアイヌ語鵡川方言のフィールドワークデータ(音声)に対する文字起こしとそれに係る発表を行った。
音声ファイル内のデータには言語調査により得られたアイヌ語の語彙や談話などが多く収録されている一方、調査自体は日本語を媒介としていることから日本語での談話が大部分を占めている。この日本語での談話の中には調査協力者による鵡川地方の言語的、歴史的、文化的な情報を含む話題も多く、アイヌ語とあわせて研究利用(データベース化)のための音声データのテキスト化が研究課題上急務であった。しかし、音声データの総収録時間が約1,200時間と厖大であり、また、音声データ内には調査協力者に関するセンシティブな個人情報も散在することから、人的な作業分担による文字起こしではなく、日本語部分に対するAI文字起こしを検討した。
検討の結果、音声認識やUIの利便性などの点から、Amazon Web Service(クラウドサービス)を利用し、音声ファイルを字幕ファイル(SRTファイル、VTTファイル)およびJSONファイルとして出力した。これにより全音声ファイルに対して基礎的な検索可能性を付与することができた。データベース構築に向けては、字幕ファイルの日本語の修正およびアイヌ語の書き直しという作業が必要となるが、音声データの基礎処理を低コスト・高効率で実現できた点、また、次年度以降の作業計画をより具体化できた点で、本研究課題の遂行において重要な意義を持つ研究年度となった。なお、クラウドサービスの検討から情報処理については東京大学史料編纂所の劉冠偉氏に多くのご助言と技術的なご協力を賜った。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

本研究課題の遂行において最大の作業課題である音声データに対する文字起こしについて、AIを活用して基礎的な検索可能性を付与する処理(テキスト化)が実行できた点は重要な進展と評価できる。その一方で、AIによる基礎処理によって実現しているのは日本語への文字起こしのみであり、本研究課題のメインであるアイヌ語については字幕テキストをもとにした文字起こし作業が急務となる。また、AIによって文字起こしされた日本語のテキストも方言談話や不明瞭な音声箇所では修正を要する。
2021年度も新型コロナウイルス感染症への各種対応から計画通りのエフォートを達成できず、基礎処理から先の整理作業は遅れていると言わざるを得ない。また、データ整理・分析の遅延に伴い、学術論文などでの積極的な成果発信ができなかった点も、本進捗評価の理由としてあげられる。

Strategy for Future Research Activity

2021年度のAI文字起こしによって得られた字幕テキストをもとに、日本語テキストの修正およびアイヌ語の書き直しを行う。字幕テキストは字幕エディターによる効率的な編集作業が可能であり計画的に実行する。また、データベース化に向けたテキストへのマークアップ作業(日本語でのセンシティブな情報やアイヌ語などへのマークアップ作業)も編集作業内の課題として実行する。

Causes of Carryover

データ処理に利用したクラウドサービス(Amazon Web Service)の使用料について、執行期限と領収書取得のタイミングの関係で2021年度内での執行がかなわなかったため、次年度使用額として繰り越し、執行することとなった。

  • Research Products

    (2 results)

All 2022

All Presentation (2 results)

  • [Presentation] AI文字起こしを活用したフィールドデータの基礎処理-アイヌ語調査の日本語談話を例に-2022

    • Author(s)
      岸本宜久, 劉冠偉
    • Organizer
      DHフェス2022
  • [Presentation] フィールドデータへのAI文字起こしの活用による基礎資料作成の効率化2022

    • Author(s)
      岸本宜久, 劉冠偉
    • Organizer
      第114回札幌学院大学言語学談話会

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi