2016 Fiscal Year Research-status Report
セマンティクスとウェブ・統計データを活用した潜在的関係の知識発見
Project/Area Number |
15K00423
|
Research Institution | Kyoto University |
Principal Investigator |
浅野 泰仁 京都大学, 情報学研究科, 特定准教授 (20361157)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | ウェブ / データマイニング / グラフ / テキストマイニング / アルゴリズム |
Outline of Annual Research Achievements |
(1) 潜在的関係発見のための基盤技術に関する研究 潜在的関係発見のためには,グラフ上の経路最適化の技術が重要である.実際,代表者らは以前,潜在的関係を発見するモデルとして,減衰流(generalized max-flow)を用いた手法を提案・発表しているが,本手法の具体的計算方法にも経路最適化の技術が用いられている.この技術の研究課題として,平成28年度は,「合流経路最適化問題」に取り組み,2種類の問題に対して厳密解を与えるアルゴリズムを構築した. (2) 潜在的関係発見の実データへの応用 (a) 統計的データとして「製品の機能」に関するデータ,ウェブのデータとしてAmazonレビューを用いて,「製品を使用する目的にとって重要な機能」というセマンティクスを持つ潜在的関係を発見する研究を行った.この関係の例としては,「デジタルカメラという製品について,風景撮影には解像度と高感度ノイズ性能が重要である」等がある. (b) 実データとしてMOOCs等から得られるコンピュータサイエンス分野の科目のシラバスのデータ及び同分野の標準カリキュラムのデータ,ウェブのデータとしてWikipediaのデータを用い,「科目とカリキュラムの結び付け」をKnowledge Area, Knowledge Unitという意味的階層構造を持つ潜在的関係の発見によって実現する研究を行った. (c) 実データとして講義スライド(または商品広告ウェブページ)等のXML文書を用い,これを(学習漫画等でよく使用されている)理解しやすい「1教師1生徒対話形式」脚本に変換するための,文章間の「質問と回答」を意味する潜在的関係を発見する研究を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
(1)で研究した「合流経路最適化問題」については,合流による利益を考慮可能なモデルを提案し,全員が単一の目的地を持つ問題と,各員が固有の目的地を持つ問題双方に関して,それぞれ厳密解を求めるアルゴリズムを構築した.前者に関しては本問題と,著名な問題である最小シュタイナー木問題及びBuy-at-Bulk問題との関係性を明らかにし,動的計画法を改善することで効率の良いアルゴリズムを実現した.後者に関しては合流と分岐が発生するが,二人または三人に限定した場合でもその組合せ数は無数に考えられる.そこで,代表者らは,合流の利益がある自然な式に従う場合は,この組合せパターンがごく限られたものになることを証明し,これと幾何的枝刈りを組み合わせることで効率的な手法を実現した.前者は地理情報に関する著名な査読付き国際学会であるSIGSPATIAL,後者はデータマイニングのトップジャーナルであるTKDEに採録された. (2)(a)に関しては「デジタルカメラ」等の実際の商品データとレビューデータを用い,各種の自然言語分析手法(Word2Vec, labeled LDA, 構文パターン)を利用したブートストラップ法に基づく手法を提案した.実証実験では「商品の機能」と潜在的関係を持つ「目的」を表す単語を高い精度で発見可能なことを示した.この結果は本年度に開催される査読付き国際会議に採録が決定している. (2)(b)に関しては,シラバスと標準カリキュラムのKnowledge Area, Knowledge Unitという意味的階層構造との関係を求めるために,自然言語処理技術のみならずWikipediaの知識を利用した手法を提案した.本結果は教育データマイニングの査読付き国際会議EDMに採録され,国際論文誌に投稿予定である. (2)(c)に関しては,質問と応答の意味関係を表すモデルを作成し,文章の質問応答に対応する部分の発見・分類手法を提案した.本結果は査読付き国際会議に投稿予定である.
|
Strategy for Future Research Activity |
(1)で研究した「合流経路最適化問題」については,ライドシェアリング・合体可能車両自動制御等の未来交通システムの基盤技術としても用いることができることがわかってきた.この方面への応用は非常に将来性が高いと考えられるので,本年度は,交通問題への応用可能な技術の研究をさらに推し進める.具体的には,時間の要素を取り入れた合流経路最適化問題によって未来交通の問題をモデル化し,組合せアルゴリズムや機械学習のアプローチでこれを解く手法を研究する. (2)で研究している,実データにおける潜在的関係の発見についても,研究を進めてきた過程において様々な応用が明らかになってきたので,その方向性をさらに推し進める.例えば(a)は,「製品の機能と使用目的との潜在的関係」を発見することのできる手法を研究してきたが,これをさらに一般化することによって,様々な分野における有用な知識を発見することができると考えている.また(b)に関しては,「科目シラバスと標準カリキュラム」関係の知識が得られたが,これをMOOCsの科目選択支援に応用することが可能になると考えているので,例えば得られた知識を科目間の関係発見に応用したり,可視化による受講者支援システムの構築を予定している.(c)に関しては,スライド等の文書から漫画脚本の自動生成に用いる質問応答の関係の知識は,脚本以外の側面でも漫画自動生成にも役立つと考えられるので,その方向性を検討してゆく.
|
Causes of Carryover |
実験に必要な計算機等の物品の更新はさらに性能が充実した製品が予想される次年度に見送り,当該年度に研究に使用した物品に関しては,研究室の既存設備を流用することとした.また,旅費・謝金・その他に関しても,研究室の運営費等を利用し代替することができた.一方で次年度の代替は難しいと予想され,本研究費を次年度に多く使用する予定に変更した.
|
Expenditure Plan for Carryover Budget |
当該年度で更新を見送った実験用計算機,すでに採録が決定している国際学会参加費・旅費を含めた旅費,評価実験のための謝金・クラウドソーシング,論文校閲費等に中心的に用いる予定である.
|