• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Construction of a large word database with accent information

Research Project

Project/Area Number 19K13173
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 02060:Linguistics-related
Research InstitutionTokyo Metropolitan University (2021-2022)
National Institute for Japanese Language and Linguistics (2019-2020)

Principal Investigator

Oka Teruaki  東京都立大学, システムデザイン研究科, 特任助教 (50782942)

Project Period (FY) 2019-04-01 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2022: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2021: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2020: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2019: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Keywordsアクセント / 形態素解析辞書 / 電子化辞書 / 自然言語処理 / UniDic / 日本語形態素解析 / 形態素解析 / 形態素解析用辞書 / コーパス / クラウドソーシング
Outline of Research at the Start

国語研短単位の電子化辞書(単語のデータベース)内の短単位(単語)へ、アクセント情報の網羅的付与を行う。付与作業はクラウドソーシングを利用する。クラウド上の作業者は、各短単位を複数のアクセントパターンで自動的に読み上げた音声を聴き、最も自然に聴こえるものだけを選択する。これが当該短単位のアクセント情報として付与される。
またアクセント情報の活用として、固有名詞のような長い複合語(長単位)を構成する短単位間係り受けの自動解析器開発を行う。アクセントと語構造の関係は古くから示唆されてきたが、本研究ではその示唆を、自動解析器の性能の変化と、辞書へのアクセント情報の充実との関係を調べていくことで検証する。

Outline of Final Research Achievements

Crowdsourcing was used to add accent information to UniDic, an electronic dictionary for morphological analysis. Since the participants were unspecified non-specialists, we set them the task of selecting familiar accents from speech synthesized by simultaneously presenting not only the word whose accent they wanted to identify, but also its successor words that would not change the accent of the word. Filtering was performed using words with known accents as gold, and Bayesian level estimation of the worker and each question was used to assign accent information by weighted majority voting. The filtering and the prediction of the worker's level for the task resulted in large-scale accent assignment that was not affected by differences in place of residence.

Academic Significance and Societal Importance of the Research Achievements

単語へのアクセント付与作業は、居住地や出身地の影響を受けるため、非専門家には難しく、大規模な実施は困難だった。クラウドソーシングの普及とともに発展した設問や作業者のレベル推定手法を使うことで、専門家を時間的空間的に拘束することのないアクセント付与のフローを実現した。

Report

(5 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Research-status Report
  • 2020 Research-status Report
  • 2019 Research-status Report
  • Research Products

    (20 results)

All 2022 2021 2020 2019 Other

All Presentation (13 results) (of which Int'l Joint Research: 3 results) Book (2 results) Remarks (5 results)

  • [Presentation] 日本語BERTを用いた単語の用例の分野別分析ツールの開発2022

    • Author(s)
      凌志棟, 相田太一, 金輝燦, 岡照晃, 小林千真, 小町守
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 日本語T5モデルを用いた障害レポートからの重要箇所抽出2022

    • Author(s)
      山下郁海, 岡照晃, 小町守, 真鍋章, 谷本恒野
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 人工データでの事前学習によるニューラル機械翻訳の性能向上2022

    • Author(s)
      田村弘人, 平澤寅庄, 金輝燦, 岡照晃, 小町守
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 日本語文法誤り訂正の流暢性評価に向けたデータ作成2022

    • Author(s)
      木山朔, 上坂奏人, 佐藤郁子, 佐藤京也, 米田悠人, 小山碧海, 三田雅人, 岡照晃, 小町守
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 事前学習モデルを用いた音声認識結果からの固有表現抽出2022

    • Author(s)
      今藤誠一郎, 上田直生也, 岡照晃, 杉山雅和, 邊土名朝飛, 小町守
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] 対照学習による文ベクトルを使用した障害レポートのクラスタリング2022

    • Author(s)
      小林千真, 山下郁海, 岡照明, 小町守, 真鍋章, 谷本恒野
    • Organizer
      言語処理学会第28回年次大会
    • Related Report
      2021 Research-status Report
  • [Presentation] KOTONOHA: A Corpus Concordance System for Skewer-Searching NINJAL Corpora2020

    • Author(s)
      Teruaki Oka, Yuichi Ishimoto, Yutaka Yagi, Takenori Nakamura, Masayuki Asahara, Kikuo Maekawa, Toshinobu Ogiso, Hanae Koiso, Kumiko Sakoda and Nobuko Kibe
    • Organizer
      12th Edition of its Language Resources and Evaluation Conference (LREC2020)
    • Related Report
      2020 Research-status Report
    • Int'l Joint Research
  • [Presentation] chiVe: 製品利用可能な日本語単語ベクトル資源の実現へ向けて ~ 形態素解析器Sudachiと超大規模ウェブコーパスNWJCによる分散表現の獲得と改良 ~2020

    • Author(s)
      久本 空海, 山村 崇, 勝田 哲弘, 竹林佑斗, 高岡 一馬, 内田 佳孝, 岡 照晃, 浅原 正幸
    • Organizer
      第16回テキストアナリティクス・シンポジウム
    • Related Report
      2020 Research-status Report
  • [Presentation] KOTONOHA: A Corpus Concordance System for Skewer-Searching NINJAL Corpora2020

    • Author(s)
      Teruaki Oka, Yuichi Ishimoto, Yutaka Yagi, Takenori Nakamura, Masayuki Asahara, Kikuo Maekawa, Toshinobu Ogiso, Hanae Koiso, Kumiko Sakoda, Nobuko Kibe
    • Organizer
      The 12th Edition of its Language Resources and Evaluation Conference (LREC2020)
    • Related Report
      2019 Research-status Report
    • Int'l Joint Research
  • [Presentation] chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて2020

    • Author(s)
      河村宗一郎, 久本空海, 真鍋陽俊, 高岡一馬, 内田佳孝, 岡照晃, 浅原正幸
    • Organizer
      言語処理学会第26回年次大会(NLP2020)
    • Related Report
      2019 Research-status Report
  • [Presentation] クラウドソーシングによる形態論情報付与付き辞書整備2019

    • Author(s)
      岡 照晃
    • Organizer
      日本言語学会第158回大会
    • Related Report
      2019 Research-status Report
  • [Presentation] UniDic非コアデータ : 解析用UniDicのID情報にひも付く追加情報の公開について2019

    • Author(s)
      岡 照晃
    • Organizer
      言語資源活用ワークショップ2019(LRW2019)
    • Related Report
      2019 Research-status Report
  • [Presentation] New words in Japanese and the design of UniDic electronic dictionary2019

    • Author(s)
      Teruaki Oka
    • Organizer
      Globalex Workshop on Lexicography and Neologism 2019 (GWLN 2019)
    • Related Report
      2019 Research-status Report
    • Int'l Joint Research
  • [Book] 日本語文法百科2021

    • Author(s)
      沖森 卓也
    • Total Pages
      560
    • Publisher
      朝倉書店
    • ISBN
      9784254510669
    • Related Report
      2021 Research-status Report
  • [Book] 文化情報学事典2019

    • Author(s)
      村上征勝、金明哲(同志社大学教授)、小木曽智信(国立国語研究所教授)、中園聡(鹿児島国際大学教授)、矢野桂司(立命館大学教授)、赤間亮(立命館大学教授)、阪田真己子(同志社大学教授)、宝珍輝尚(京都工芸繊維大学教授)、芳沢光雄(桜美林大学教授)、渡辺美智子(慶應義塾大学教授)、足立浩平(大阪大学教授)
    • Total Pages
      850
    • Publisher
      勉誠出版
    • ISBN
      4585200711
    • Related Report
      2019 Research-status Report
  • [Remarks] 短単位自動解析用辞書に向けた正規化ルール

    • URL

      https://github.com/TeruakiOka/ooch

    • Related Report
      2022 Annual Research Report
  • [Remarks] 大規模テキストデータのノイズフィルタリング

    • URL

      https://qiita.com/TeruakiOka/items/f15ebc1d85249c99f42d

    • Related Report
      2022 Annual Research Report
  • [Remarks] 東京都立大学 自然言語処理研究室 研究発表

    • URL

      https://cl.sd.tmu.ac.jp/research/publications

    • Related Report
      2021 Research-status Report
  • [Remarks] 「UniDic」国語研短単位自動解析用辞書

    • URL

      https://unidic.ninjal.ac.jp/

    • Related Report
      2019 Research-status Report
  • [Remarks] UniDic非コアデータ

    • URL

      https://teru-oka-1933.github.io/unidic_non_core/

    • Related Report
      2019 Research-status Report

URL: 

Published: 2019-04-18   Modified: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi