2022 Fiscal Year Annual Research Report
Project/Area Number |
19K13173
|
Research Institution | Tokyo Metropolitan University |
Principal Investigator |
岡 照晃 東京都立大学, システムデザイン研究科, 特任助教 (50782942)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Keywords | 電子化辞書 / アクセント |
Outline of Annual Research Achievements |
アクセント情報付き電子化辞書の作成に向けて、クラウドソーシングとその結果を品質評価する手法を使った不特定多数の非専門家による大規模アノテーションに取り組んだ。音声合成ソフトウェアを使い、自動読み上げのアクセントを変化させ、その中から作業者にとって尤もらしい読み上げを選択するタスクを設計した。自動読み上げの対象は電子化辞書UniDic内の短単位をアクセント型を特定できるよう変化させた文字列であり、ユーザは読み上げられた音声から尤もらしいものを選択する。1読み上げ対し複数の作業者を割り当て、作業者の品質評価もベイズ推定により自動で行うことで、単純な多数決に依らない半自動アノテーションを実現した。アクセント付与の対象にしたのは国立国語研究所の公開する短単位自動解析辞書『UniDic』であるが、ライセンスの都合、付与したアクセント情報を使った自動解析用辞書の同一言語リソース(『現代日本語書き言葉均衡コーパス』など)上での再学習・オープンソースとしての公開が困難となったため、後半は大規模Webテキストに対し自動付与した短単位情報を再学習することでライセンスフリーな学習用コーパス作成に取り組んだ。基盤モデルの学習に使われるようなWebテキストはあらかじめ整形されているテキストに対してノイズが多い。それを取り除くための前処理手法の検討を行い、『UniDic』から派生する新たな学習データフリーな電子化辞書と専用の前処理ルールを開発した。これらは現在、公開に向けての準備を行なっている。
|
Research Products
(2 results)