研究課題/領域番号 |
19K13173
|
研究機関 | 東京都立大学 |
研究代表者 |
岡 照晃 東京都立大学, システムデザイン研究科, 特任助教 (50782942)
|
研究期間 (年度) |
2019-04-01 – 2023-03-31
|
キーワード | 自然言語処理 / アクセント / 電子化辞書 / UniDic / 日本語形態素解析 / 形態素解析 / 形態素解析用辞書 |
研究実績の概要 |
本研究の目的は、日本語のコーパス言語学研究の一環として、アクセント情報付きの短単位(単語)の電子化辞書構築を行うことである。各短単位のアクセント情報の決定には、通常ならば専門家を集め、時間をかけた協議が必要になる。そのため短単位電子化辞書UniDicでは、この作業が休止状態にあった。本研究では、1つの短単位に対し取りうるアクセントの情報を正誤問わず網羅的に付与し、それぞれの発音を音声合成で機械生成する。これによりアクセント情報付与は「アクセントとは何か?」を理解せずとも、テレビやラジオなどを通じて標準語に触れる機会の多い者ならば「並べられた発音の中から最も自然に(標準語のように)聴こえたものを1つ選ぶ」という作業に単純化できる。これによってアクセント情報付与作業をクラウドソーシングによるインターネット上の多数の作業者が大規模・高速に行う作業として実現した。本研究が対象とするUniDicアクセント情報は①アクセント型、②アクセント結合型、③アクセント修飾型の3種である。本年度は、昨年度も行なったベイズ統計を使った作業者間の作業資質数値化を改良し、単純な多数決でないより作業資質の高いものが行なったアクセント付与を改善した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
9月の転職に伴い、前職場で利用していたクラウドソーシングサービスが利用できなかったため、今年度はサービス利用に向けた動きだけで、本研究の要であるクラウドソーシングを新たに行うことができず、すでに収集済みのデータの整理にとどまっている。
|
今後の研究の推進方策 |
本年度は、最終年度であるためアクセントの悉皆付与と公開を目指し、昨年度実施できなかったアクセント付与と公開URLの整備を行い、最終成果の発表を目指す。
|
次年度使用額が生じた理由 |
【次年度使用額が生じた理由と使用計画】 年度の途中で所属先が変わり、研究のかなめとなるクラウドソーシングサービスが使用できなくなり、研究自体が先に進めなくなってしまった。
|