• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Research-status Report

語彙情報プロファイリングに基づくフィンランド語の派生要素を含む構文の生産性評価

Research Project

Project/Area Number 23520471
Research InstitutionReitaku University

Principal Investigator

千葉 庄寿  麗澤大学, 外国語学部, 准教授 (70337723)

Project Period (FY) 2011-04-28 – 2015-03-31
Keywordsフィンランド語 / その他の外国語 / コーパス / 派生 / 統語論 / 国際情報交流 / フィンランド
Research Abstract

平成19年度~22年度若手研究(B)「大規模テキストデータベースを用いたフィンランド語の形態統語情報のサンプル化」により構築したデータベースを利用し,平成15年度~17年度若手研究(B)「フィンランド語の動詞派生の名詞の統語論と語用論」で取得した用例データに基づいて語彙情報のプロファイリングの予備的分析をおこなった。また,本プロファイリングに用いる統計的指標の開発のため,語彙統計や計量言語学における研究事例の収集をおこなったほか,サイズの異なる言語データ間の比較をおこなうための統計モデルの構築に際して統計学の専門家に専門知識の提供を受けた。また,年度後半に海外出張をおこないフィンランド語の派生動詞および派生を含む構文に関する研究について文献調査をおこなった。またフィンランドの研究者と情報交換をおこない,派生を含む構文の分析に関し専門知識の提供を受けるとともに,今後の研究のための協力体制について打ち合わせをおこなった。さらに,現代日本語書き言葉均衡コーパス(BCCWJ)を用い,語彙情報のプロファイリングの手法を日本語の大規模コーパスに応用する試みをおこなった。BCCWJの形態素解析をおこない,まず形態素の単純頻度およびその連鎖の頻度をデータベース化し,BCCWJ全体がもつ語彙特徴を異なるデータセットと比較できるようにした。当該データベースを用い,BCCWJと他のコーパスを比較する手法について国内で研究発表をおこなった。

Current Status of Research Progress
Current Status of Research Progress

3: Progress in research has been slightly delayed.

Reason

本研究前半では,分析対象とする構文の語彙的・構造的特徴を抽出する技術の開発をおこなう計画である。今年度予定していた研究計画のうち,1. 研究代表者が構築したフィンランド語の形態統語情報データベースに基づく予備的分析をほぼ終了し,2. 語彙情報プロファイリングの指標化のための統計処理に関する予備的調査をすすめているところである。3. データベース検索システムの構築,4. 語彙情報の分析プログラムの作成および 6. 構文データのXMLによる構造記述の検討とデータ公開・共有の方法に関する考察については今年度大きな進展がなかった。これは初年度の活動として1. および 2. に注力する必要があったためであり,次年度以降の継続課題となる。また,海外出張先で研究代表者が疾病のため十分な研究活動をおこなうことができなかったため,5. 分析対象とする派生をともなう構文の選定作業が遅れている。今後もフィンランドの研究者と連携しさらに作業を進める予定であり,平成24年度に完了の予定である。7. のフィンランド語以外の言語への手法の応用については,日本語コーパスに関し語彙情報プロファイリングの手法を適用し,一定の成果を収めた。

Strategy for Future Research Activity

今年度実施したフィンランド語の語彙情報プロファイリングの予備的分析についての研究発表おこなう。また,構文の語彙情報プロファイリングの結果をコーパス全体と比較し有意差を分析するツールの開発を開始し,今年度から継続して調査を続けるプロファイリング情報の指標化のための手法の検討と併せ,「語彙情報プロファイリング」の分析手法の確立をめざす。一方で,今年度十分作業ができなかった分析対象とする派生要素の選定については,今年度研究者と連携して早急にリストアップをおこない,データベースを用いた予備調査を通じて構文の生産性に関する分析を開始する予定である。本研究の語彙情報プロファイリングの強みは,単なる語彙にとどまらず形態・統語情報を幅広く参照することで統語構造の数量化を可能にしていることである。語彙情報プロファイリングの手法が類型論的に有効であることを検証するためには,統語的な情報を組み込んだ分析を様々な言語で実施することが望ましい。その意味で,今年度実施した日本語の分析においては統語構造に関する情報をデータベースに組み込んでいないことが欠点となっている。今年度は日本語の統語構造についても各種解析ツールを援用してデータベース化をおこない分析を試みる。

Expenditure Plans for the Next FY Research Funding

フィンランド語の統語分析器のライセンス更新をおこなう。また,研究成果の発表と研究打ち合わせを兼ねて海外出張を実施する。フィンランド語の語彙情報データの分析ツール開発にあたってはソフトウェア開発の専門家に専門知識の提供をうけるとともに,構文の解析データのネイティブチェックのための費用を計上する。

  • Research Products

    (4 results)

All 2012 2011

All Journal Article (2 results) Presentation (2 results)

  • [Journal Article] 大規模コーパスを用いた用例の典型性評価―大規模コーパスを利用した学習辞書作成のために―2012

    • Author(s)
      千葉庄寿
    • Journal Title

      コーパス日本語学ワークショップ

      Volume: 第1回予稿集 Pages: 185-194

  • [Journal Article] HTMLとXML2011

    • Author(s)
      千葉庄寿
    • Journal Title

      ウェブによる情報収集

      Volume: 講座『ITと日本語研究』第7巻 Pages: 177-227

  • [Presentation] 大規模コーパスを用いた用例の典型性評価―大規模コーパスを利用した学習辞書作成のために―2012

    • Author(s)
      千葉庄寿
    • Organizer
      第1回コーパス日本語学ワークショップ
    • Place of Presentation
      国立国語研究所
    • Year and Date
      2012年3月5日
  • [Presentation] BCCWJの量的言語情報の活用―語彙情報のプロファイリングを例に―2011

    • Author(s)
      千葉庄寿
    • Organizer
      『現代日本語書き言葉均衡コーパス』完成記念講演会
    • Place of Presentation
      JA共済ビルカンファレンスホール
    • Year and Date
      2011年8月2日

URL: 

Published: 2013-07-10  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi