研究課題/領域番号 |
16K12428
|
研究機関 | 東京大学 |
研究代表者 |
大澤 幸生 東京大学, 大学院工学系研究科(工学部), 教授 (20273609)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 短時間シーケンスからの発見 / コンパクトデータ / データ市場 / 予兆発見 |
研究実績の概要 |
トレンドの変化点の抽出と、変化点前後におけるシーケンス全体の可視化についての基礎的なアルゴリズム群の開発を始めた。拙速に既存のAI技術を追わず「学習なき発見」という新パラダイムの本質を整理しつつある。 データの中で普遍的に出現するパターンの存在を前提とせず、従って大量のデータからの学習という既存のパラダイムに従うことなく、前後のトレンドを渡す「橋」(変化点)を検出するためのモデルを創るという単純な考え方を元として、この学習なき発見を実現する手法を探求している。 現状では、国際会議などで発表して「学習なき発見」の考え方をアピールし、ユーザのニーズや近い考えを持つ研究者のアイデアも収取して実データで試行しつつ原理確立に向かっている。このためにワークショップ手法IMDJによりデータユーザの要求と、変化点抽出技術の特性の関係を現場ユーザの協力を得てリンクしつつある。特に、学習なき発見は、利用に耐えるデータを収集した期間が短い人(コンパクトデータ保有者)も利用できる変化理解技術として、その社会的ニーズは巨大であることが把握できた。 アルゴリズム開発の視点からすれば、「学習なき発見」は、従来の変化検知の言葉でいえば時間ウィンドウ幅Wを非常に短く限定することにあたるので、これを最小化させる方向で研究を進めている既存研究とも比較しながら手法の開発を進めている。未発表の為に詳細はここに記載できないが、非常に短い単位時区間における事象群の確率分布の特徴を数量化し、その変化と、観測される重大事象の起きるタイミングを比較し有意な傾向を見出している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
現在、AI分野において機械学習がトレンドの主流を占めているように見える潮流の外に足をおき、「学習なき発見」という新パラダイムの本質を整理するために、拙速な論文刊行に陥らず我が道を行く姿勢を重視している。この道の上で、本年度は有意な成果を得たと考えている。 その第一の理由は、大澤自身が創始したデータ市場に関連する国内外のワークショップ等において、「学習なき発見」やその背景にある考え方を示しつつ、その意義について、他のデータ分析技術や多様なデータの所在を総合的に考慮しながら検討を深めたことである。この結果、「学習なき発見」は、次のようなデータへの適用が期待されている社会的現状が表出化されたことは、本年度の狙いどおりである。①頻繁に文脈の変わるテキスト記事(ニュースなど)から、イノベーションのヒントを把握 ②スポーツにおける動作シーケンス:瞬時に文脈(試合における双方の狙い)が変わるとき、その変わり目を招く選手の意図と対応における意識の読み取り ③金融における取引シーケンスにおいて、買いではなく「売り」の判断 ④週ごとに扱う商品が更新されるスーパーマーケットのPOSデータから、顧客の動機を変化させる商品や情報の検出。 総じて、変化が速いため、その変化の背景を理解するために使える期間が短いデータ(コンパクトデータ)から、データに書かれていない文脈情報を捉えて意思決定に役立てることが学習なき発見への社会的期待であることが分かった。 第二に、アルゴリズム開発の視点からすれば、大澤の開発したTangled Stringをスポーツなどのデータにも適用した。この結果、上記の目的への有効性を検証しつつあり、スポーツ先端科学研究拠点のメンバーに加えられた。また、短期間の時区間データの特徴を数量化し、予兆数量化手法としての効果を検証し有意な傾向を見出しつつある。
|
今後の研究の推進方策 |
今後、学習なき発見を実現するアルゴリズムおよび、ヒューマンインタフェースの仕組み開発に入ってゆく。特に、参照データの時間ウィンドウ幅Wを短くすることは本質的である。このWは文脈の「期待持続性」、すなわち、どの程度の長さに渡り同じ文脈が持続するかという主観的な期待値を表す。 例えば、ある会話において「東京オリンピック」という語が、ある5分間は「エンブレム」について、次の5分間は「都民税」についての文脈で出現するとする。二つの文脈を別々のトレンドとして切り分ける為にはWを5分程度に設定すべきであるし、わずか5分間で両文脈が入り混じる会話の場合、文脈を二つに切り分けず一つの絡まりに融合して問題はないのでやはりWは5分程度で良い。 このように文脈の期待持続性は一種の時間経過プロセスのモデルであり、意思決定にとって重要な変化点を抽出する上で重要である。一方で、上記「進捗状況」に示したような社会的期待にかかわるデータにおいては、従来のトピックモデルの様に階層構造にはなっていないことが分かってきた。W値は対象データの種類ごとに経験的に指定できるので、これを一般化して、対象データについての専門家の経験から文脈の期待持続性を指定してもらう手法を開発する。すなわち、実業領域における文脈の期待持続性を調査しつつ、適切なアルゴリズムを開発して、分析→可視化→ユーザのコメント聴取→分析→可視化→・・・というプロセスのサイクルを最小化する技術の創造を狙ってゆく。 また地震データ等にも対象を広げ、時間のみならず空間のウィンドウ幅にも配慮しつつ、時空間的広がりのモデルがデータから学習できない場合に、狭いウィンドウのデータからも時区間前後への影響力を数値化する指標を開発する。また、ウィンドウ間の合成などを効率的に行う演算方法を開発する。
|
次年度使用額が生じた理由 |
進捗状況に記載したとおり、本研究の対象のひとつとしてニュース記事テキスト等が対象として有力であるとの知見を得たが、該当するデータは購入を要するため使途を切り替えた。この結果、物品費が予定を上回るため他の予算の使用を抑えた。このデータを分析する部分に人件費、また成果発表に旅費がかかるが、人件費の使用部分は来年度にまわし、現状は他のデータの分析と、上記ニュース分析の準備フェーズに充てている。 また、本年度の研究発表については、データ市場設計手法等を用いて関連領域の研究者や実務家から「学習なき発見」の社会的意義や性能を聴取するなど、他研究プロジェクト(企業との共同研究, JST CRESTなど)での成果の力も借りて生み出した内容が含まれるため、旅費を他プロジェクトから支出した。本プロジェクトに特化した成果発表は、来年度以降の旅費からとなるものと見込んでいる。
|
次年度使用額の使用計画 |
人件費として、本年度に購入したニューズ記事および、国立情報学研究所経由で入手できるデータ、企業などから入手されるデータのうち、進捗状況に述べたような「発見なき学習」での解析が求められるデータの分析にあたる大学院生の謝金、関連成果の発表旅費などに充てる。 また、本研究の目的に特化したワークショップを開催し、その支援作業に学生をあて謝金などを支出する。さらに、その成果に関する発表のための旅費に充てたい。これらは、基本的なアルゴリズムの基礎モデル部分の開発を中心と考えていた二年目の作業としては、当初の予定よりも増加した作業となる。
|