研究課題/領域番号 |
18K11456
|
研究機関 | 国立研究開発法人産業技術総合研究所 |
研究代表者 |
高村 大也 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究チーム長 (80361773)
|
研究分担者 |
永田 亮 甲南大学, 知能情報学部, 准教授 (10403312)
川崎 義史 東京大学, 大学院総合文化研究科, 講師 (40794756)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | 語彙的変異 / 表現学習 / 分散表現 |
研究実績の概要 |
2018年度中は、利用する言語リソースの構築や、データ準備、および関連分野の調査を行った。 言語リソースの一つは同源語リストである。現時点では、ポーランド語、英語、ドイツ語、スペイン語、フランス語、イタリア語、チェコ語、ウクライナ語、ロシア語について収集した。既存のリストもあるが、単語の定義に問題があり、あらためて作成した。 また、Wikipediaのデータを用いた単語分散表現の獲得を行った。Wikipediaのdumpデータから、テキスト部分を抽出し、トークナイゼーションを施し、分散表現獲得ツールであるword2vecを用いて分散表現を計算した。まずはフランス語とポーランド語についてこれを行った。 平行して、MUSEと呼ばれる多言語単語分散表現を用いて、同源語間の近さを算出した。この結果について、現在分析中である。ただし、MUSEについては、いくつかの言語についてトークナイゼーションに問題がある可能性があり、問題がある場合は、上で述べたWikipediaから作成した分散表現を使用する予定である。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
分散表現獲得において、トークナイゼーションの基準を言語間で合わせるのが難しく、想定していたより時間がかかった。
|
今後の研究の推進方策 |
MUSEという公開されている多言語単語分散表現を用いて分析を進めると同時に、自ら構築したより厳密な分散表現を用いての計算実験も進めていく。
|
次年度使用額が生じた理由 |
次年度にRA雇用のための人件費を多く確保しておいた方が良いと判断したため。
|