• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2019 Fiscal Year Research-status Report

アクセント情報付き大規模単語データベースの構築

Research Project

Project/Area Number 19K13173
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

岡 照晃  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 特任助教 (50782942)

Project Period (FY) 2019-04-01 – 2023-03-31
Keywords電子化辞書 / アクセント / コーパス / 形態素解析 / クラウドソーシング
Outline of Annual Research Achievements

本研究の目的は、日本語のコーパス言語学研究の一環として、アクセント情報付きの短単位(単語)の電子化辞書構築を行うことである。各短単位のアクセント情報の決定には、通常ならば専門家を集め、時間をかけた協議が必要になる。そのため短単位電子化辞書UniDicでは、この作業が休止状態にあった。
本研究では、1つの短単位に対し取りうるアクセントの情報を正誤問わず網羅的に付与し、それぞれの発音を音声合成で機械生成する。これによりアクセント情報付与は「アクセントとは何か?」を理解せずとも、テレビやラジオなどを通じて標準語に触れる機会の多い者ならば「並べられた発音の中から最も自然に(標準語のように)聴こえたものを1つ選ぶ」という作業に単純化できる。これによってアクセント情報付与作業をクラウドソーシングによるインターネッ上の多数の作業者が大規模・高速に行う作業として実現した。
本研究が対象とするUniDicアクセント情報は①アクセント型、②アクセント結合型、③アクセント修飾型の3種である。
初年度に当たる本年度は、短単位辞書への①アクセント型(アクセント位置)の付与に取り組んだ。市販の音声合成処理ソフトウェアを用い、その機能のひとつである発話時アクセント位置調整を利用して、1つの短単位に対してアクセント型の網羅的な機械発話を作成した。その後、それらを実際にネット上の作業者に確認してもらい、アクセント型の決定を行なった。この際、1つの短単位のアクセント型の決定には最低でも10人の作業者を割り当てており、ベイズ統計を使った作業者間の作業資質を数値化し、単純な多数決でないより作業資質の高いものが行なったアクセント付与を信頼する方式をとっている。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本来の予定であれば、初年度~2年度目にかけて対象となる2万短単位(18,926短単位)へアクセント型を付与する予定であったが、順調に作業が進んだ結果、初年度だけでその約8割にあたる約1万5千短単位へのアクセント型付与を達成しており、おおむね順調に作業は進展していると判断できる。
またリポジトリサービスであるGitHub上に言語資源の公開の場を用意していたが、ユーザからの要望を受け、あらかじめ用意していた「UniDic非コアデータ公開ページ」(https://github.com/teru-oka-1933/unidic_non_core)をGitHubに不慣れなユーザにも見やすく使いやすい形で利用可能なよう、ダウンロードサイトとしてのWebページデザインの一新にも取り組んだ(https://teru-oka-1933.github.io/unidic_non_core/)。これは当初の予定になかったものであり、作業が順調に進んだからこそ取り組めたことである。

Strategy for Future Research Activity

2年目の方針として、まず前述した残り2割のアクセント型付与に取り組む。完成したあかつきにはそれらを用意したサイト上に公開する。また初年度にはこれまでに行なってきたクラウドソーシングによる既存の辞書拡張の発表を2件行なったが、2年目には初年度に行なったアクセント型付与の方法と結果をまとめた発表を予定している。
また初年度にはこの研究とは別にアクセント情報を利用した形態素解析用辞書の改良にも取り組んでいたが(https://unidic.ninjal.ac.jp)、既存のアクセント情報の利用による自動解析精度向上を確認したため、前述の残2割の付与が終わり次第、既存データとの統合を行い、解析精度の変化を観察する予定である。これとも並行し、当初の予定通り、2年目は、UniDicアクセント情報②のアクセント結合型のクラウドソーシングによる大規模付与に取り組んでいく予定である。

  • Research Products

    (8 results)

All 2020 2019 Other

All Presentation (5 results) (of which Int'l Joint Research: 2 results) Book (1 results) Remarks (2 results)

  • [Presentation] KOTONOHA: A Corpus Concordance System for Skewer-Searching NINJAL Corpora2020

    • Author(s)
      Teruaki Oka, Yuichi Ishimoto, Yutaka Yagi, Takenori Nakamura, Masayuki Asahara, Kikuo Maekawa, Toshinobu Ogiso, Hanae Koiso, Kumiko Sakoda, Nobuko Kibe
    • Organizer
      The 12th Edition of its Language Resources and Evaluation Conference (LREC2020)
    • Int'l Joint Research
  • [Presentation] chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて2020

    • Author(s)
      河村宗一郎, 久本空海, 真鍋陽俊, 高岡一馬, 内田佳孝, 岡照晃, 浅原正幸
    • Organizer
      言語処理学会第26回年次大会(NLP2020)
  • [Presentation] クラウドソーシングによる形態論情報付与付き辞書整備2019

    • Author(s)
      岡 照晃
    • Organizer
      日本言語学会第158回大会
  • [Presentation] UniDic非コアデータ : 解析用UniDicのID情報にひも付く追加情報の公開について2019

    • Author(s)
      岡 照晃
    • Organizer
      言語資源活用ワークショップ2019(LRW2019)
  • [Presentation] New words in Japanese and the design of UniDic electronic dictionary2019

    • Author(s)
      Teruaki Oka
    • Organizer
      Globalex Workshop on Lexicography and Neologism 2019 (GWLN 2019)
    • Int'l Joint Research
  • [Book] 文化情報学事典2019

    • Author(s)
      村上征勝、金明哲(同志社大学教授)、小木曽智信(国立国語研究所教授)、中園聡(鹿児島国際大学教授)、矢野桂司(立命館大学教授)、赤間亮(立命館大学教授)、阪田真己子(同志社大学教授)、宝珍輝尚(京都工芸繊維大学教授)、芳沢光雄(桜美林大学教授)、渡辺美智子(慶應義塾大学教授)、足立浩平(大阪大学教授)
    • Total Pages
      850
    • Publisher
      勉誠出版
    • ISBN
      4585200711
  • [Remarks] 「UniDic」国語研短単位自動解析用辞書

    • URL

      https://unidic.ninjal.ac.jp/

  • [Remarks] UniDic非コアデータ

    • URL

      https://teru-oka-1933.github.io/unidic_non_core/

URL: 

Published: 2021-01-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi