2020 Fiscal Year Research-status Report
Project/Area Number |
19K13173
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 電子化辞書 / アクセント / コーパス / 形態素解析 / クラウドソーシング |
Outline of Annual Research Achievements |
本研究の目的は、日本語のコーパス言語学研究の一環として、アクセント情報付きの短単位(単語)の電子化辞書構築を行うことである。各短単位のアクセント情報の決定には、通常ならば専門家を集め、時間をかけた協議が必要になる。そのため短単位電子化辞書UniDicでは、この作業が休止状態にあった。本研究では、1つの短単位に対し取りうるアクセントの情報を正誤問わず網羅的に付与し、それぞれの発音を音声合成で機械生成する。これによりアクセント情報付与は「アクセントとは何か?」を理解せずとも、テレビやラジオなどを通じて標準語に触れる機会の多い者ならば「並べられた発音の中から最も自然に(標準語のように)聴こえたものを1つ選ぶ」という作業に単純化できる。これによってアクセント情報付与作業をクラウドソーシングによるインターネット上の多数の作業者が大規模・高速に行う作業として実現した。本研究が対象とするUniDicアクセント情報は①アクセント型、②アクセント結合型、③アクセント修飾型の3種である。本年度は、①の残りの調査を行うとともに、②のアクセント結合型、③のアクセント修飾型の付与に取り組むべく、長単位(文節を主要部と末尾機能語短単位列にわけた言語単位)に対するアクセント付与に取り組んだ。市販の音声合成処理ソフトウェアを用い、その機能のひとつである発話時アクセント位置調整を利用して、1つの長単位に対して短単位の切れ目ごとに網羅的なアクセント型の機械発話を作成した。その後、それらを実際にネット上の作業者に確認してもらい、アクセント型の決定を行なった。この際、1つの長単位のアクセント型の決定には最低でも10人の作業者を割り当てており、ベイズ統計を使った作業者間の作業資質を数値化し、単純な多数決でないより作業資質の高いものが行なったアクセント付与を信頼する方式をとっている。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本研究の特徴は、クラウドソーシングを使った大規模アンケート調査であるが、コロナ情勢下に入り、在宅時間が増えたためか、クラウドソーシングのタスクを行う不特定多数のクラウドワーカーの特徴が変化した。彼らの増加とともに、タスクの実施に対して非協力的なワーカーも増加しており、単純なチェック設問などでは見つけられない彼ら、バッドワーカーを見つけ出すための新たな集計用ベイズアルゴリズムの構築が必要になった。何度かの検証用アンケート調査を経て、年度末に長単位へのアクセント付与を行なった。現在、新しいアルゴリズムを使った集計結果の確認を行っており、概ね良好であれば、集計用ソースコードの公開を予定している。
|
Strategy for Future Research Activity |
2年目にアクセント位置のアンケート調査を行なった長単位は、短単位の列からなり、木構造を持っている。この木構造とアクセントの関係についての調査が主な作業となる。木構造(係り受け)データはすでにタグ付けされたデータがあるため、アクセントの集計結果とすり合わせを行い、アンケートの回答傾向を木構造から考察していく。また、長単位と短単位の間にある中単位についても考察を進めていく。また2年目に公開できなかった電子化辞書UniDic用にむけた追加アクセント情報の公開準備を進めている。
|
Remarks |
UniDic https://unidic.ninjal.ac.jp/ UniDic非コアデータ https://teru-oka-1933.github.io/unidic_non_core/
|