2017 Fiscal Year Research-status Report
Project/Area Number |
16K00421
|
Research Institution | Kagoshima University |
Principal Investigator |
渕田 孝康 鹿児島大学, 理工学域工学系, 准教授 (70253911)
|
Project Period (FY) |
2016-10-21 – 2019-03-31
|
Keywords | オープンデータ / LOD / RDF / Word2Vec |
Outline of Annual Research Achievements |
研究初年度でWord2Vecを用いて作成した単語辞書は、鹿児島市のオープンデータで使用されている単語を検索エンジンを用いて検索して得られたページ、およびWikipedia日本語版の記事アーカイブから得られた日本語文章を用いて作成したが、よりオープンデータに適した辞書を得るため、研究2年目では全国の自治体のホームページのコンテンツから得られた日本語文章を用いて辞書の作成を行った。この際、初年度で購入したGPGPU搭載の計算機を用いて学習を行うことで、学習時間の大幅な短縮が図れた。得られた単語ベクトルをクラスタリング処理した結果、両コーパスで完全に一致したクラスタが1つ、70%以上の一致率のクラスタが2つ形成された。しかし、一致率が30%以下のクラスタも多数みられ、コーパスの違いによるベクトル空間の差異が大きいことが明らかとなった。 さらに2年目には、新たな手法である単語ベクトル法を提案し、その有効性について検証した。Word2Vecは次元数を固定して単語辞書のベクトル次元を自動的に形成するが、単語ベクトル法では、人間が恣意的にベクトルの軸を指定して単語をベクトル化する方法である。全国の自治体が公開しているオープンデータのうち、施設情報に限って人間による確認で軸となる条件を約300種類抽出し、それを用いてオープンデータのすべての列をベクトル化した。得られたベクトル空間に階層的クラスタリングを用いた結果、数値(日時)系、住所系、番号系、URL系、名称系、その他の大きく6つのクラスタに分類することができた。しかし、その他に分類された列に多くの重要な情報が含まれている可能性が残っており、クラスタの精度を上げることが今後の課題となった。 研究成果を2018年1月のAROB2018、および同3月のAPICENS2018の2つの国際会議にて発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
研究初年度でWord2Vecの学習コーパスが鹿児島市のオープンデータに限定されていたことが問題であるとの認識に基づき、全国の自治体のホームページのデータを基にしたあらたなコーパスを用いて同様の実験を行ったが、得られた辞書はまだ単語の分類を行うのに十分なものではなかった。そこで新たな方法として、人為的にベクトル空間の軸を決定する述語ベクトル法を提案し、オープンデータの内容に基づいたベクトル化を試みた。この方法はオープンデータの内容を表現したカテゴリの形成ができているが、まだ精度の上で不十分である。もっと細かな粒度のカテゴリが形成できるように軸の選定方法を改良する必要があると考えている。 そこで、述語ベクトル法の軸の選定にWord2Vecと同様、ニューラルネットワークによる深層学習を応用することを検討した。現在、この深層学習に用いるネットワークの構成および入出力データについて設計を行っている状況である。したがって、研究の進捗状況としてはやや遅れていると判断した。
|
Strategy for Future Research Activity |
次年度は研究最終年度であるので、本研究を完成させ結果を公開する。まず述語ベクトル法の軸を決定するためのニューラルネットワークを決定し、学習によってオープンデータの各列をベクトル空間にマッピングする。それを踏まえて、全国の自治体が公開しているオープンデータを連携させることが可能であることを、実際のデータを用いて示す。また、この成果を使いやすい形でウェブアプリとして作成し公開することで、各自治体の職員のみならず広く一般市民に利用してもらい、オープンデータの活用が推進されていることを検証する。 研究成果は国内外の学会や国際会議で発表し、広く世界に周知する。また本研究の成果を冊子としてまとめ報告する。
|
Causes of Carryover |
(理由)データ処理用として購入を予定していたPCの納期が遅れ、年度内に納品が不可能となったため、その分の経費を次年度へ繰り越したため。 (使用計画)同目的PCを年度初めの4月に購入する予定である。
|
Research Products
(5 results)