2021 Fiscal Year Research-status Report
アイヌ語鵡川方言のフィールド調査およびデータの公開
Project/Area Number |
20K13009
|
Research Institution | Sapporo Gakuin University |
Principal Investigator |
岸本 宜久 札幌学院大学, 経済経営学部, 講師 (20848600)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | アイヌ語 / フィールドデータ / AI文字起こし / AWS |
Outline of Annual Research Achievements |
2021年度は、本研究課題の中心的なデータとなる2012年から2020年までのアイヌ語鵡川方言のフィールドワークデータ(音声)に対する文字起こしとそれに係る発表を行った。 音声ファイル内のデータには言語調査により得られたアイヌ語の語彙や談話などが多く収録されている一方、調査自体は日本語を媒介としていることから日本語での談話が大部分を占めている。この日本語での談話の中には調査協力者による鵡川地方の言語的、歴史的、文化的な情報を含む話題も多く、アイヌ語とあわせて研究利用(データベース化)のための音声データのテキスト化が研究課題上急務であった。しかし、音声データの総収録時間が約1,200時間と厖大であり、また、音声データ内には調査協力者に関するセンシティブな個人情報も散在することから、人的な作業分担による文字起こしではなく、日本語部分に対するAI文字起こしを検討した。 検討の結果、音声認識やUIの利便性などの点から、Amazon Web Service(クラウドサービス)を利用し、音声ファイルを字幕ファイル(SRTファイル、VTTファイル)およびJSONファイルとして出力した。これにより全音声ファイルに対して基礎的な検索可能性を付与することができた。データベース構築に向けては、字幕ファイルの日本語の修正およびアイヌ語の書き直しという作業が必要となるが、音声データの基礎処理を低コスト・高効率で実現できた点、また、次年度以降の作業計画をより具体化できた点で、本研究課題の遂行において重要な意義を持つ研究年度となった。なお、クラウドサービスの検討から情報処理については東京大学史料編纂所の劉冠偉氏に多くのご助言と技術的なご協力を賜った。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究課題の遂行において最大の作業課題である音声データに対する文字起こしについて、AIを活用して基礎的な検索可能性を付与する処理(テキスト化)が実行できた点は重要な進展と評価できる。その一方で、AIによる基礎処理によって実現しているのは日本語への文字起こしのみであり、本研究課題のメインであるアイヌ語については字幕テキストをもとにした文字起こし作業が急務となる。また、AIによって文字起こしされた日本語のテキストも方言談話や不明瞭な音声箇所では修正を要する。 2021年度も新型コロナウイルス感染症への各種対応から計画通りのエフォートを達成できず、基礎処理から先の整理作業は遅れていると言わざるを得ない。また、データ整理・分析の遅延に伴い、学術論文などでの積極的な成果発信ができなかった点も、本進捗評価の理由としてあげられる。
|
Strategy for Future Research Activity |
2021年度のAI文字起こしによって得られた字幕テキストをもとに、日本語テキストの修正およびアイヌ語の書き直しを行う。字幕テキストは字幕エディターによる効率的な編集作業が可能であり計画的に実行する。また、データベース化に向けたテキストへのマークアップ作業(日本語でのセンシティブな情報やアイヌ語などへのマークアップ作業)も編集作業内の課題として実行する。
|
Causes of Carryover |
データ処理に利用したクラウドサービス(Amazon Web Service)の使用料について、執行期限と領収書取得のタイミングの関係で2021年度内での執行がかなわなかったため、次年度使用額として繰り越し、執行することとなった。
|