2019 Fiscal Year Research-status Report
Project/Area Number |
19K13173
|
Research Institution | National Institute for Japanese Language and Linguistics |
Principal Investigator |
岡 照晃 大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 電子化辞書 / アクセント / コーパス / 形態素解析 / クラウドソーシング |
Outline of Annual Research Achievements |
本研究の目的は、日本語のコーパス言語学研究の一環として、アクセント情報付きの短単位(単語)の電子化辞書構築を行うことである。各短単位のアクセント情報の決定には、通常ならば専門家を集め、時間をかけた協議が必要になる。そのため短単位電子化辞書UniDicでは、この作業が休止状態にあった。 本研究では、1つの短単位に対し取りうるアクセントの情報を正誤問わず網羅的に付与し、それぞれの発音を音声合成で機械生成する。これによりアクセント情報付与は「アクセントとは何か?」を理解せずとも、テレビやラジオなどを通じて標準語に触れる機会の多い者ならば「並べられた発音の中から最も自然に(標準語のように)聴こえたものを1つ選ぶ」という作業に単純化できる。これによってアクセント情報付与作業をクラウドソーシングによるインターネッ上の多数の作業者が大規模・高速に行う作業として実現した。 本研究が対象とするUniDicアクセント情報は①アクセント型、②アクセント結合型、③アクセント修飾型の3種である。 初年度に当たる本年度は、短単位辞書への①アクセント型(アクセント位置)の付与に取り組んだ。市販の音声合成処理ソフトウェアを用い、その機能のひとつである発話時アクセント位置調整を利用して、1つの短単位に対してアクセント型の網羅的な機械発話を作成した。その後、それらを実際にネット上の作業者に確認してもらい、アクセント型の決定を行なった。この際、1つの短単位のアクセント型の決定には最低でも10人の作業者を割り当てており、ベイズ統計を使った作業者間の作業資質を数値化し、単純な多数決でないより作業資質の高いものが行なったアクセント付与を信頼する方式をとっている。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本来の予定であれば、初年度~2年度目にかけて対象となる2万短単位(18,926短単位)へアクセント型を付与する予定であったが、順調に作業が進んだ結果、初年度だけでその約8割にあたる約1万5千短単位へのアクセント型付与を達成しており、おおむね順調に作業は進展していると判断できる。 またリポジトリサービスであるGitHub上に言語資源の公開の場を用意していたが、ユーザからの要望を受け、あらかじめ用意していた「UniDic非コアデータ公開ページ」(https://github.com/teru-oka-1933/unidic_non_core)をGitHubに不慣れなユーザにも見やすく使いやすい形で利用可能なよう、ダウンロードサイトとしてのWebページデザインの一新にも取り組んだ(https://teru-oka-1933.github.io/unidic_non_core/)。これは当初の予定になかったものであり、作業が順調に進んだからこそ取り組めたことである。
|
Strategy for Future Research Activity |
2年目の方針として、まず前述した残り2割のアクセント型付与に取り組む。完成したあかつきにはそれらを用意したサイト上に公開する。また初年度にはこれまでに行なってきたクラウドソーシングによる既存の辞書拡張の発表を2件行なったが、2年目には初年度に行なったアクセント型付与の方法と結果をまとめた発表を予定している。 また初年度にはこの研究とは別にアクセント情報を利用した形態素解析用辞書の改良にも取り組んでいたが(https://unidic.ninjal.ac.jp)、既存のアクセント情報の利用による自動解析精度向上を確認したため、前述の残2割の付与が終わり次第、既存データとの統合を行い、解析精度の変化を観察する予定である。これとも並行し、当初の予定通り、2年目は、UniDicアクセント情報②のアクセント結合型のクラウドソーシングによる大規模付与に取り組んでいく予定である。
|
Research Products
(8 results)