Construction of a large word database with accent information
Project/Area Number |
19K13173
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 02060:Linguistics-related
|
Research Institution | Tokyo Metropolitan University (2021-2022) National Institute for Japanese Language and Linguistics (2019-2020) |
Principal Investigator |
Oka Teruaki 東京都立大学, システムデザイン研究科, 特任助教 (50782942)
|
Project Period (FY) |
2019-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | アクセント / 形態素解析辞書 / 電子化辞書 / 自然言語処理 / UniDic / 日本語形態素解析 / 形態素解析 / 形態素解析用辞書 / コーパス / クラウドソーシング |
Outline of Research at the Start |
国語研短単位の電子化辞書(単語のデータベース)内の短単位(単語)へ、アクセント情報の網羅的付与を行う。付与作業はクラウドソーシングを利用する。クラウド上の作業者は、各短単位を複数のアクセントパターンで自動的に読み上げた音声を聴き、最も自然に聴こえるものだけを選択する。これが当該短単位のアクセント情報として付与される。 またアクセント情報の活用として、固有名詞のような長い複合語(長単位)を構成する短単位間係り受けの自動解析器開発を行う。アクセントと語構造の関係は古くから示唆されてきたが、本研究ではその示唆を、自動解析器の性能の変化と、辞書へのアクセント情報の充実との関係を調べていくことで検証する。
|
Outline of Final Research Achievements |
Crowdsourcing was used to add accent information to UniDic, an electronic dictionary for morphological analysis. Since the participants were unspecified non-specialists, we set them the task of selecting familiar accents from speech synthesized by simultaneously presenting not only the word whose accent they wanted to identify, but also its successor words that would not change the accent of the word. Filtering was performed using words with known accents as gold, and Bayesian level estimation of the worker and each question was used to assign accent information by weighted majority voting. The filtering and the prediction of the worker's level for the task resulted in large-scale accent assignment that was not affected by differences in place of residence.
|
Academic Significance and Societal Importance of the Research Achievements |
単語へのアクセント付与作業は、居住地や出身地の影響を受けるため、非専門家には難しく、大規模な実施は困難だった。クラウドソーシングの普及とともに発展した設問や作業者のレベル推定手法を使うことで、専門家を時間的空間的に拘束することのないアクセント付与のフローを実現した。
|
Report
(5 results)
Research Products
(20 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Book] 日本語文法百科2021
Author(s)
沖森 卓也
Total Pages
560
Publisher
朝倉書店
ISBN
9784254510669
Related Report
-
-
-
-
-
-