2018 Fiscal Year Research-status Report
形態・統語情報を考慮した多層的語彙ネットワークの描出とその応用に関する研究
Project/Area Number |
16K02697
|
Research Institution | Reitaku University |
Principal Investigator |
千葉 庄寿 麗澤大学, 外国語学部, 教授 (70337723)
|
Project Period (FY) |
2016-04-01 – 2020-03-31
|
Keywords | 言語学 / コーパス言語学 / フィンランド語 / 語彙ネットワーク / 可視化 / 学習者コーパス |
Outline of Annual Research Achievements |
本研究は,現代フィンランド語の大規模コーパスの分析に基づく語彙の使用パターンをネットワークとして可視化し,語彙間のつながりを多層的に記述する試みである。2018年度は語彙ネットワークの記述実験を引き続きすすめると共に,多層的語彙ネットワークのデータベースへのデータの蓄積をすすめた。また,大規模コーパスとの比較対象として構築しているフィンランド語学習者コーパスのデータ収集を引き続きおこない,語彙ネットワークデータの応用をおこなう具体的なアプリケーションとなる語彙リストの作成を開始した。具体的な研究実績は以下のとおりである。 1. 語彙ネットワークの可視化実験をおこなった。ワークレマ lemma と表層形による語彙ネットワークの記述を比較し,レマによるネットワークが必ずしもフィンランド語の語彙間の関係を適切に可視化しないこと,レマと表層形の中間段階にあたる,適切な形態統語的情報を付与したコーパスによるネットワーク描出が有効であることが明らかになった。 2. フィンランド語の2種類の大規模書き言葉コーパス(FTC, Suomi24)と小規模な学習者コーパス(ICLFI)を語彙ネットワークの分析枠組み(具体的にはWord2Vec)により解析し,データベース化するとともに,試験的に結果の比較をおこなった。 3. フィンランド語の学習者コーパス(日本人フィンランド語学習者の作文データ)のデータ収集をすすめ,15名約8,000語のデータを追加収集した。 4. 語彙ネットワーク応用の試みとして,学習者むけ語彙集の構築を開始した。 5. 現在までの研究成果を国内外の学会・研究会にて発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
構築したフィンランド語の語彙データベースの評価をおこなうための基礎データとして,フィンランド語の学習者むけオンライン電子辞典 ConLexis を使用していたが,開発・公開元の理由により2018年度半ばで公開が終了し,内容を参照することが不可能となった。ConLexis のサーバデータの引き取り,データの提供を含めた交渉をおこなったが,残念ながら再公開は難しいとの結論に至り,比較対象となる辞書を改めて選出することとなった。 現在のところ,幡野恒氏が公開する『フィンランド語日本語辞典』第5版(2019年)を新たに語彙記述の参照元として設定する計画であり,データの提供について著者から了承を得ることができた。当該辞書の見出し語数は ConLexis (語数100語)よりも大幅に多く,第4版は見出し語7万7千語,研究で参照する予定の第5版は第4版から基礎的な語彙のみをコンパクト厳選した1万7千語である。一方,基礎語彙・重要語彙のマークはなく,また収録されている用例数は ConLexis に比して少ない。従って,評価のための語彙の選出および評価の方法について,今後検討が必要となっている。 この問題を受け,フィンランド語の学習語彙集の選出とその評価というタスクを新たに設定し,現在構築している語彙ネットワークのデータを語彙リストの評価に活用することにした。現在,評価対象となる語彙リストの作成を終え,リストの評価に必要な作業をすすめている。2019年度中に語彙リストの評価と補完を完了し,一般公開することをめざしている。
|
Strategy for Future Research Activity |
最終年度にあたる2019年度は,フィンランド語の語彙ネットワークデータベースの構築をすすめるとともに,可視化情報の評価・分析をおこなう。現在用いているベクトル化の手法である Word2Vec に加えて,より新しいベクトルデータ生成手法も試みたい。 フィンランド語の学習者データの収集を引き続きおこなうとともに,作文データのコーパス化と最初の分析を2019年度中におこないたい。作成にあたっては,ICLFI-japaniに含めない長期フィンランド語学習者のデータも収集し,質的分析のためのインタビュー調査を含めたデータの整備作業を2019年度中に完了させたい。 2018年度に新たに開始した語彙ネットワークデータを用いた学習語彙リストの評価タスクへの応用については2019年度に国際学会(RDHum 2019)にて研究発表をおこない,研究者と情報交換をおこなったうえで論文を執筆する。また,構築した語彙ネットワークの応用事例として,既存の辞書の記述との比較と評価,並びに学習者用語彙リストの評価と補完のための作業をすすめていく。
|
Research Products
(4 results)