2017 Fiscal Year Research-status Report
形態・統語情報を考慮した多層的語彙ネットワークの描出とその応用に関する研究
Project/Area Number |
16K02697
|
Research Institution | Reitaku University |
Principal Investigator |
千葉 庄寿 麗澤大学, 外国語学部, 教授 (70337723)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 言語学 / コーパス言語学 / フィンランド語 / 可視化 / 学習者コーパス |
Outline of Annual Research Achievements |
本研究は,現代フィンランド語の大規模コーパスに基づく語彙の使用パターンの重なりをネットワークとして可視化し,語彙間のつながりを描出する「多層的語彙ネットワーク」(MDLN)の構築と分析をおこなうことである。2019年度は語彙ネットワークの記述実験をおこなうとともに,前年度の検討をふまえてMDLNのデータベースの仕様の検討をすすめた。さらに大規模コーパスとの比較対象として構築するフィンランド語学習者コーパス(日本語フィンランド語学習者コーパス,ICLFI-japanおよび成人フィンランド語学習者コーパス)のデータ収集作業をおこなった。具体的な研究実績は以下のとおりである: 1. 語彙ネットワーク構築のためのデータベースの仕様策定作業をすすめ,現在得られているデータを用いて語彙ネットワークの構築実験とその評価をおこなった。ベクトル化の手法としてはword2vecを用い,フィンランド語の書き言葉コーパス(FTC)とより小規模なコーパス(学習者コーパスICLFI)をもちいた語彙ネットワークの可視化実験をおこない,一定の結果を得た。 2. フィンランドより来日した共同研究者交えて学習者コーパスに関するワークショップ(Theory and Practice in Learner Corpora Studies)を開催した。フィンランド語の学習者コーパスへの日本人学習者データの追加計画について述べるとともに,学習者コーパスに語彙ベクトル分析を適用する意義について考察をおこなった。 3. 日本人フィンランド語学習者の作文データの収集のため,コーパスデータ収集システムを整備して作文データの収集を開始した。収集にはフィンランド語学習者コーパス(ICLFI)の枠組みを用いることとし,本年度はヨーロッパ共同参照枠のレベルA1, A2 (学習者自身の自己診断によるもの)の作文33編(1万1千語)を得た。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
フィンランド語版MDLNのための解析データベースの構築に際し,フィンランドの共同研究機関(CSC)が提供していた統語解析ソフトウェア(Connexor社製fi-fdg)のライセンス供与が終了し,新規データをfi-fdgで解析することができなくなった。これにともない,解析ソフトを本研究の予算でライセンス購入し,一定期間導入する必要があるが,現在収集中の日本語フィンランド語学習者コーパス(ICLFI-japan)のデータについても,既存データとの整合性を踏まえこのソフトウェアで解析し,形態統語アノテーションを付与する必要があることから,学習者コーパスのデータがある程度揃った段階で導入することとした。 これにより,データベースのデータ更新が予定より遅れる見込みであるが,既に解析済みのデータを用いてデータベースの構築をすすめ,プロジェクトの進捗への影響ができるだけ少なくなるよう配慮したい。 また,MDLNのデータベースに関し,現在フィンランド語の統語解析において広く用いられているよりfi-fdgより新しい統語解析ツール(Finnish Dependency Parser)を利用することも今後検討する。
|
Strategy for Future Research Activity |
フィンランド語版MDLNのためのデータベースの仕様検討を引き続きおこない,現在までに得られているデータを用いたデータベースのプロトタイプの構築をおこなう。語彙情報のベクトル化と可視化の手法については,現在用いているword2vecに加え,fastTextなど他のベクトルデータ生成手法も試みる。 前年度からの課題である,語彙ネットワークの多層的分析のための枠組みについては,ニューラルネットワークの専門家とも意見交換をおこないながら引き続き検討をすすめていく。 フィンランド語学習者データの収集を引き続きおこなっていくが,ICLFI-japan構築のための作文データについて,初級学習者(A1, A2)にデータが偏る問題については当初から想定されおり,この点についてはICLFIの研究者とも見通しを共有済みである。この問題を踏まえ,よりレベルの高い学習者のデータを得るための長期にわたってフィンランド語を学習している日本人フィンランド語学習者の作文データの収集プロジェクトを開始し,ICLFI-japanのデータとともにコーパス化の準備をすすめていく予定である(後者はデータ収集に際し謝金を計上する)。
|
Remarks |
実験用サーバの導入に関しては,現在の研究の進捗から導入には至っていない。今後可視化デモを含めた研究成果公開用のレンタルサーバを兼ねるVPSサーバの導入を予定している。
|
Research Products
(4 results)