研究課題/領域番号 |
16K12539
|
研究機関 | 愛媛大学 |
研究代表者 |
河村 泰之 愛媛大学, 教育学部, 准教授 (80369967)
|
研究分担者 |
宇野 毅明 国立情報学研究所, 情報学プリンシプル研究系, 教授 (00302977)
富田 英司 愛媛大学, 教育学部, 准教授 (90404011)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 隠れた好み |
研究実績の概要 |
計画では28年度は次年度に向けた準備を行う予定であった。具体的には、1)対象メールデータから典型的な個人情報を抜いた後に個人を特定できそうな内容を吟味することと、2)システム構築である。どちらも概ね計画通りに進んでいる。また、3)結婚支援のデータから基本的な統計情報を取り、観察した。 1)データの前処理について。提供を受けたメールデータから、会員名や地名、電話番号やメールアドレスといった個人が特定できる可能性が高い部分を機械的に伏字で置き換えたあと、メールをランダムにサンプリングしたところ、まだ特定できる情報が残っていることが確認できた。扱うメールデータは個人情報の中でも極めてプライベートな内容であるので、過去の漏えい事例などを参考に、先方とデータの扱い方について議論を進めた。 2)システム構築について。ビッグデータに関する機械学習は急激に成長している分野で、ディープラーニングの場合は、特にライブラリとグラフィックボードの選定は重要である。現在のところライブラリ間に互換はなく、ライブラリによって使用できないグラフィックボードがあるからである。本報告時点では、TensorFlow, Chainer, Caffe の3つのライブラリが代表的なものと言えるだろう。本研究では、Google の TensorFlow を用いたディープラーニングシステムとすることとした。TensorFlow に対応したグラフィックボードを選定し、標準的な開発環境を構築した。 3)活動履歴データから単純な統計情報を取り、それを観察したものを、結婚支援ビッグデータ活用研究会にて口頭で報告した。営利目的の婚活ビジネスでは、結婚支援に関わるデータを公開することがほとんどないため、有用な活動であると評価を受けた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
先述の3つのトピック、1)メールデータからの個人情報除去、2)システム構築、3)結婚支援データの観察については次の通りで、総合的に考えて、おおむね順調に進展していると判断する。 1)対象のメールデータの前処理についてはおおむね予定通りである。しかしながら、先方の都合でデータの提供を受ける時期が遅れたことと、予定していた禁止リストの作成には至っていないので少し遅れていると言っても良い。2)システムの準備については予定通り進んでおり、3)データの観察については次年度から手を付けるの予定であったが、簡単な報告ができる程度ではあるが進んでいる。
|
今後の研究の推進方策 |
29年度はメールデータの分析を進める。人間による分析と機械による分析の両面からアプローチする計画であるが、申請額より交付額が大幅に少ないため、予定を変更する必要があるかもしれない。具体的には、人手がかかる人間による分析の部分をかなり縮小することになるかもしれない。人間による分析は教師データとして利用してディープラーニングの精度を高める試みであったが、データが不足してあまり成果が上がらないことが考えられる。活動履歴のデータに関しての分析を進め、他のアプローチを視野に入れる。 30年度は実際にサービス化することを目指す。
|
次年度使用額が生じた理由 |
主な理由は2つある。機械学習用マシンに附属するメモリやグラフィックボードなどのオプションを実際に計算をはじめてから優先度の高いものを購入することとしたことと、データ分析の補助のための学生アルバイトの予定が若干遅れたためである。
|
次年度使用額の使用計画 |
マシンのオプションは必要に応じて、また、補助学生のアルバイト代も、次年度以降に使用する計画である。
|