2018 Fiscal Year Research-status Report
Project/Area Number |
18K11456
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
高村 大也 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (80361773)
|
Co-Investigator(Kenkyū-buntansha) |
永田 亮 甲南大学, 知能情報学部, 准教授 (10403312)
川崎 義史 東京大学, 大学院総合文化研究科, 講師 (40794756)
|
Project Period (FY) |
2018-04-01 – 2021-03-31
|
Keywords | 語彙的変異 / 表現学習 / 分散表現 |
Outline of Annual Research Achievements |
2018年度中は、利用する言語リソースの構築や、データ準備、および関連分野の調査を行った。 言語リソースの一つは同源語リストである。現時点では、ポーランド語、英語、ドイツ語、スペイン語、フランス語、イタリア語、チェコ語、ウクライナ語、ロシア語について収集した。既存のリストもあるが、単語の定義に問題があり、あらためて作成した。 また、Wikipediaのデータを用いた単語分散表現の獲得を行った。Wikipediaのdumpデータから、テキスト部分を抽出し、トークナイゼーションを施し、分散表現獲得ツールであるword2vecを用いて分散表現を計算した。まずはフランス語とポーランド語についてこれを行った。 平行して、MUSEと呼ばれる多言語単語分散表現を用いて、同源語間の近さを算出した。この結果について、現在分析中である。ただし、MUSEについては、いくつかの言語についてトークナイゼーションに問題がある可能性があり、問題がある場合は、上で述べたWikipediaから作成した分散表現を使用する予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
分散表現獲得において、トークナイゼーションの基準を言語間で合わせるのが難しく、想定していたより時間がかかった。
|
Strategy for Future Research Activity |
MUSEという公開されている多言語単語分散表現を用いて分析を進めると同時に、自ら構築したより厳密な分散表現を用いての計算実験も進めていく。
|
Causes of Carryover |
次年度にRA雇用のための人件費を多く確保しておいた方が良いと判断したため。
|