2016 Fiscal Year Research-status Report
Project/Area Number |
16K00421
|
Research Institution | Kagoshima University |
Principal Investigator |
渕田 孝康 鹿児島大学, 理工学域工学系, 准教授 (70253911)
|
Project Period (FY) |
2016-10-21 – 2019-03-31
|
Keywords | オープンデータ / LOD / RDF / Word2Vec |
Outline of Annual Research Achievements |
研究初年度であるH28年度は、追加で内定をいただいたことから、10月から3月までの半年間の研究期間で行った。 研究初年度の計画は、既存のオープンデータの名前空間の調査と統一を目的としていた。本研究は鹿児島市とも研究協力体制を取っており、まず、H28年度段階で鹿児島市が公開しているオープンデータのCSV形式のものから、第1行目に当たる項目名を抽出し、さらにIPAが公開している共通語彙基盤の中のコア語彙も含めて、合計約300語の単語からランダムに抽出した4つの単語をキーワードとしてGoogle検索を行い、得られたページの中の文章を収集した。これに加えて、Wikipedia日本語版の記事アーカイブのデータからも日本語の文章を収集し、合計27万種類、約1億7千万単語を学習用の基本データとして準備した。この学習データを、Word2Vecと呼ばれるニューラルネットワークを用いて学習し、単語をベクトル空間に射影した。 次に、鹿児島市のオープンデータの中で特に施設情報に着目し、実際に使用されているデータに現れる単語のベクトル和が、学習した単語ベクトルのどれに近いかをコサイン距離を用いて計測した。その結果、建物や施設を表す単語が上位に来ることが確認された。 この研究結果を、2017年1月の国際会議23rd Artificial Life and Robotics、および火の国情報シンポジウム2017にて発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は追加内定で採択されたが、内定以前から同様の研究を進めていたため、研究内容については追加内定での影響は少なかった。しかし、購入機器については、学習用のニューラルネットワークを高速化するためのGPGPU搭載の計算機を購入することが遅れたため、Word2Vecによる学習は通常のパソコンのCPUによって計算を行った。約1億7千万単語の学習データを学習し終えるのに4日程度を要するため、学習を繰り返して行うにはかなりの時間を要した。この点は、次年度以降、GPGPU搭載の計算機が使用可能になれば大幅に改善されると期待している。 また、Word2Vecでの学習結果を用いて述語ベクトルを推定することは実現しているが、精度がまだよくない状況である。この理由として、使用したオープンデータが鹿児島市のものだけに限定されていることと、収集した学習用単語数がまだ不足していることが考えられる。
|
Strategy for Future Research Activity |
鹿児島市以外にもオープンデータを公開するサイトを持つ地方自治体は多く存在している。これらのオープンデータを収集し、H28年度の手法を適用する。さらに、近年はIMIが推進するDMDと呼ばれるメタデータを付帯したオープンデータが注目を集めている。本研究の計画段階ではDMDについては特に言及されていなかったが、今後はオープンデータにメタデータを付随させて公開していく流れがメインになっていくと考えられることから、メタデータについても収集を進める。 また、GPGPU搭載の計算機を用いてWord2Vecを構築するためのフレームワークとしてChainerを用いる予定である。Chainer上でWord2Vecを構築することで、数倍から数十倍の高速化が見込めることを期待している。 さらに、RDFの述語サジェスト用のツールを改良し、実務でオープンデータを公開している市の職員等に使ってもらい、アンケート形式で利用のしやすさや改善点を探る。
|
Causes of Carryover |
科研費の採択が追加内定であったため、予算を執行可能な期間が半年であり、当初予定していたアルバイトを雇用したデータ収集と整理やアンケートなどを実施することができなかった。これに伴い、データ収集用に購入を予定していた大容量外部記憶装置の導入を見送った。 また、GPGPUを搭載した高速計算用の計算機の導入が、当初予定していた計算機よりも安く上がったことも理由の1つである。
|
Expenditure Plan for Carryover Budget |
10億語を超える日本語の文章を収集するためには、それよりはるかに多いウェブページを収集し保存しておく必要がある。H28年度に導入を見送った大容量外部記憶装置をH29年度に購入する。また、GPGPUの性能は年々上昇すると同時に価格は下がっているため、もう1台のサーバの導入を検討する。 また、国際会議に積極的に参加し、研究成果を広く国内外に公表する。
|
Research Products
(2 results)