• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2017 Fiscal Year Annual Research Report

日本語歴史コーパスに対する統語・意味情報アノテーション

Research Project

Project/Area Number 17H00917
Research InstitutionNational Institute for Japanese Language and Linguistics

Principal Investigator

浅原 正幸  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 准教授 (80379528)

Co-Investigator(Kenkyū-buntansha) 服部 隆  上智大学, 文学部, 教授 (10289598)
古宮 嘉那子  茨城大学, 工学部, 講師 (10592339)
市村 太郎  常葉大学, 教育学部, 講師 (10701352)
山崎 誠  大学共同利用機関法人人間文化研究機構国立国語研究所, 言語変化研究領域, 教授 (30182489)
宮内 佐夜香  中京大学, 文学部, 准教授 (30508502)
池上 尚  埼玉大学, 教育学部, 准教授 (50739125)
岡 照晃  大学共同利用機関法人人間文化研究機構国立国語研究所, コーパス開発センター, 助教 (50782942)
Project Period (FY) 2017-04-01 – 2022-03-31
Keywordsコーパス / 係り受け / 分類語彙表
Outline of Annual Research Achievements

統語情報と意味情報の2つに分けて研究実績を示す。
統語情報は先行して実施した科研費萌芽「近代語コーパスに対する統語情報アノテーションの基準策定」(平成27―28年度)で作成した、明六雑誌に対する係り受け・述語項構造アノテーションデータを、国際的な依存構造アノテーション規格である Universal Dependencies に適合させ、JADH-2017 で発表を行った。同じ基準で作成した「現代日本語書き言葉均衡コーパス」のデータとともに CoNLL-2018 の Shared Task で利用してもらうべく、2018年3月に一般公開を行った。
意味情報は、上半期に平安時代のデータ(竹取物語・土左日記)に対する分類語彙表番号アノテーションを進め JADH-2017 で発表を行った。下半期に鎌倉時代のデータ(方丈記・徒然草)に対する分類語彙表番号アノテーションを進めた。対照データとして「現代日本語書き言葉均衡コーパス」に対する分類語彙表アノテーションを進めた。
また「分類語彙表増補改訂版」と 「UniDic」 語彙素番号の対応表を作成し、Windows から利用可能な GUI ChaMame を構築した。ChaMame を利用することにより、人文系の研究者がプログラムを書かずに分類語彙表番号の自動付与ができるようになった。並行して「古典対照分類語彙表」と UniDic 語彙素番号の対応表の整備を進めている。
さらに日本語歴史コーパスを含むコーパスの利用講習会を行った。コーパス利用講習会についてはビデオ収録の検討を行った。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

統語情報については、近代語について係り受けアノテーションのデータを対外公開できた。
意味情報については、平安・鎌倉期の作品それぞれ2作品ずつ分類語彙表番号アノテーションを進めた。対照データとして現代日本語書き言葉均衡コーパスに対する分類語彙表アノテーションを進めた。
また分類語彙表番号と UniDic の語彙素番号の対応表を公開し、今後の意味情報アノテーションの効率化に利用可能である。
上記3点については大幅に進んだが、時間情報アノテーションについては手つかずの状況である。

Strategy for Future Research Activity

平成30年度は、以下の作業を進めるとともに対外発表を行う。
古典対照分類語彙表と UniDic の対応表の作成を進める。
統語情報については、近代語(国定読本)および現代語(現代日本語書き言葉均衡コーパス)に対する節境界アノテーションを進める。
意味情報については、近代語(国定読本)に対する分類語彙表アノテーションを進める。
また昨年度構築した言語資源に関する対外発表を行う。
さらにコーパスに関する講習会を実施するとともに、講習会ビデオを作成する。

  • Research Products

    (28 results)

All 2018 2017

All Journal Article (4 results) (of which Peer Reviewed: 3 results,  Open Access: 1 results) Presentation (24 results) (of which Int'l Joint Research: 10 results,  Invited: 1 results)

  • [Journal Article] NWJC2Vec: Word embedding dataset from ‘NINJAL Web Japanese Corpus’2018

    • Author(s)
      Masayuki Asahara
    • Journal Title

      Terminology: International Journal of Theoretical and Applied Issues in Specialized Communication

      Volume: 24 Pages: 7-25

    • Peer Reviewed
  • [Journal Article] 『国語研日本語ウェブコーパス』とその検索系『梵天』2018

    • Author(s)
      浅原正幸,河原一哉,大場寧子,前川喜久雄
    • Journal Title

      情報処理学会論文誌

      Volume: 59 Pages: 299-305

    • Peer Reviewed
  • [Journal Article] 『国語研日本語ウェブコーパス』とその検索系『梵天』2018

    • Author(s)
      浅原正幸
    • Journal Title

      JSL漢字学習研究会誌

      Volume: 10 Pages: 26-30

  • [Journal Article] nwjc2vec: 国語研日本語ウェブコーパスから構築した単語の分散表現データ2017

    • Author(s)
      新納浩幸,浅原正幸,古宮嘉那子,佐々木稔
    • Journal Title

      自然言語処理

      Volume: 24 Pages: 705-720

    • Peer Reviewed / Open Access
  • [Presentation] Japanese clause classification annotation on the`Balanced Corpus of Contemporary Written Japanese'2018

    • Author(s)
      Satomi Matsumoto, Masayuki Asahara, Setsuko Arita
    • Organizer
      Proceedings of Asian Language Resources 13
    • Int'l Joint Research
  • [Presentation] Universal Dependencies Version 2 for Japanese2018

    • Author(s)
      Masayuki Asahara, Hiroshi Kanayama, Takaaki Tanaka, Yusuke Miyao, Sumire Uematsu, Shinsuke Mori, Yuji Matsumoto, Mai Omura, Yugo Murawaki
    • Organizer
      Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC-2018)
    • Int'l Joint Research
  • [Presentation] All-words Word Sense Disambiguation Using Concept Embeddings2018

    • Author(s)
      Rui Suzuki, Kanako Komiya, Masayuki Asahara, Minoru Sasaki, Hiroyuki Shinnou
    • Organizer
      Proceedings of the 11th edition of the Language Resources and Evaluation Conference (LREC-2018)
    • Int'l Joint Research
  • [Presentation] 『国語研日本語ウェブコーパス』とその検索系『梵天』2018

    • Author(s)
      浅原正幸
    • Organizer
      韓国日本学会
    • Int'l Joint Research / Invited
  • [Presentation] 国語研で開発している 語義タグ付きデータと辞書2018

    • Author(s)
      浅原正幸,近藤明日子,加藤祥
    • Organizer
      「all-words WSD システムの構築及び分類語彙表と岩波国語辞典の対応表作成への利用」研究発表会
  • [Presentation] 「感じる」を指標とするメタファー用例の収集とその分析2018

    • Author(s)
      菊地礼,加藤祥,浅原正幸
    • Organizer
      日本語用論学会 メタファー研究会 2018年3月18・19日 2-Day シンポジウム「身体性」
  • [Presentation] 児童による作文の修辞ユニット分析における中核要素認定2018

    • Author(s)
      田中弥生,浅原正幸
    • Organizer
      言語処理学会第24回年次大会
  • [Presentation] UD Japanese BCCWJ: 現代日本語書き言葉均衡コーパスのUniversal Dependencies2018

    • Author(s)
      大村舞,浅原正幸
    • Organizer
      言語処理学会第24回年次大会
  • [Presentation] 『岩波国語辞典』の語義タグを用いたall-wordsの語義曖昧性解消2018

    • Author(s)
      平林照雄,鈴木類,古宮嘉那子,浅原正幸,佐々木稔,新納浩幸
    • Organizer
      言語処理学会第24回年次大会
  • [Presentation] 読み手が共通の認識を得るための情報とその表現―小説のタイトルと帯から読み手 が取得する情報―2018

    • Author(s)
      加藤祥,浅原正幸
    • Organizer
      第41回社会言語科学会研究大会
  • [Presentation] 読み時間と節境界について2018

    • Author(s)
      浅原正幸
    • Organizer
      シンポジウム「日本語学習者はどのように文章を理解しているのか―目の動きから見えてくるもの―」
  • [Presentation] Universal Dependencies プロジェクトと日本語チームの活動2018

    • Author(s)
      浅原正幸
    • Organizer
      「言語における系統・変異・多様性とその数理」シンポジウム
  • [Presentation] Between Reading Time and Syntactic/Semantic Categories2017

    • Author(s)
      Masayuki Asahara, Sachi Kato
    • Organizer
      Proceedings of the The 8th International Joint Conference on Natural Language Processing
    • Int'l Joint Research
  • [Presentation] Between Reading Time and Information Structure2017

    • Author(s)
      Masayuki Asahara
    • Organizer
      Proceedings of The 31st Pacific Asia Conference on Language, Information and Computation PACLIC 31 (2017)
    • Int'l Joint Research
  • [Presentation] Universal Dependency for Japanese Modern Languages2017

    • Author(s)
      Mai Omura, Yuta Takahashi, Masayuki Asahara
    • Organizer
      JADH 2017, The Japanese Association for Digital Humanities Conference 2017
    • Int'l Joint Research
  • [Presentation] Annotation of ‘Word List by Semantic Principles’ Labels for `Corpus of Historical Japanese’ Heian Period Series -- Trial Annotation on Tosa Nikki and Taketori Monogatari --2017

    • Author(s)
      Masayuki Asahara, Nao Ikegami, Yutaka Hara, Sachi Kato, Tai Suzuki
    • Organizer
      JADH 2017, The Japanese Association for Digital Humanities Conference 2017
    • Int'l Joint Research
  • [Presentation] Annotation of Information Structure on ``The Balanced Corpus of Contemporary Written Japanese''2017

    • Author(s)
      Takuya Miyauchi, Masayuki Asahara, Natsuko Nakagawa, Sachi Kato
    • Organizer
      Proceedings of PACLING 2017, the 15th International Conference of the Pacific Association for Computational Linguistics
    • Int'l Joint Research
  • [Presentation] Word Familiarity Rate Estimation for `Word List by Semantic Principles' -- a Case Study of Adjective --2017

    • Author(s)
      Masayuki Asahara
    • Organizer
      Mental Architecture for Processing and Learning of Language (MAPLL) and Tokyo Conference on Psycholinguistics (TCP) 2017
    • Int'l Joint Research
  • [Presentation] 意味分野の結合類型を用いてコーパスから隠喩用例収集を試みる2017

    • Author(s)
      加藤祥,浅原正幸
    • Organizer
      日本認知言語学会第18回全国大会
  • [Presentation] 読み時間と統語・意味分類2017

    • Author(s)
      浅原正幸,加藤祥
    • Organizer
      日本認知科学会第34回大会
  • [Presentation] 現代日本語書き言葉均衡コーパスのUniversal Dependencies2017

    • Author(s)
      大村舞,浅原正幸
    • Organizer
      言語資源活用ワークショップ2017
  • [Presentation] 分類語彙表番号を用いた比喩表現収集の試み2017

    • Author(s)
      加藤祥,浅原正幸
    • Organizer
      言語資源活用ワークショップ2017
  • [Presentation] 修辞ユニット分析における脱文脈化指数の妥当性の検証2017

    • Author(s)
      浅原正幸,田中弥生
    • Organizer
      言語資源活用ワークショップ2017
  • [Presentation] 読み時間と節境界について2017

    • Author(s)
      浅原正幸
    • Organizer
      日本言語学会第154回大会

URL: 

Published: 2018-12-17  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi