研究課題/領域番号 |
18K12361
|
研究機関 | 東京大学 |
研究代表者 |
川崎 義史 東京大学, 大学院総合文化研究科, 講師 (40794756)
|
研究期間 (年度) |
2018-04-01 – 2022-03-31
|
キーワード | 深層学習 / 分散表現 / 年代推定・場所推定 / スペイン語 / 類推 / 言語変化 |
研究実績の概要 |
本年度は,既存のライブラリ等を極力使用せずに深層学習を実装する基礎的手法を習得した。具体的には,単語の分散表現を得るためのCBOW・Skip-gramモデルと時系列データを扱うためのseq2seqモデルの実装方法を学んだ。これらのモデルを利用して,下記の研究課題に取り組んだ。 ・中近世スペイン語古文書の作成年代と作成場所を推定する年代・場所推定のタスクについては,各単語を時間と空間の両者に同時に埋め込み,ベクトル表現を得ることに成功した。これにより,年代と場所の情報を保持している単語ベクトルから,その事後確率を求めることで,単語レベルで年代・場所推定を行うことが可能となった。文書の年代・場所推定は,単語の事後確率の加重平均により行うことができる。この手法により,推定精度を向上させることに成功した。モデルの開発に加え,大幅に増加したデータのアノテーションも実施した。 ・類推による不規則動詞のモデル化の研究については,ラテン語とスペイン語の動詞活用のデータを整備した。このデータを入力として,seq2seqでモデルを作成した。予備的実験では,不規則動詞の規則化を散発的に再現できたが,一般化できるレベルには達していない。 上記のように,今年度は,小規模ながらも研究課題のプロトタイプの作成まで到達することができた。今後は,データの追加とモデルの精緻化を行う予定である。 上記に加え,他分野の研究者と交流し,本研究の手法の応用可能性を論じた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
当初は既存のライブラリを利用して深層学習のモデルを実装する予定であったが,極力それらを使わずに実装するという方針に転換したため,遅れが生じている。しかし,モデルのより深い理解が可能になり,カスタマイズも可能になった。 また,データ整理に想定以上の時間がかかった。
|
今後の研究の推進方策 |
今年度は,データ整理とモデル構築に留まり,研究成果を発表することができなかった。来年度以降,研究成果の発表を行っていく予定である。 本研究のテーマの一つである中近世スペイン語タガーの開発については,スペインの研究チームが既に開発済みであるということが判明した。そのため,今後この課題に取り組むべきか,判断したい。 本研究の手法が応用できそうな関連分野の研究課題があるので,応用可能性を探って行く予定である。
|
次年度使用額が生じた理由 |
物品費からコンピュータを購入する予定だったが,個人的都合により自費での購入としたため。未使用額は,来年度以降に購入するコンピュータもしくは旅費に充当する予定。
|