研究課題/領域番号 |
17H01788
|
研究機関 | 京都大学 |
研究代表者 |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
研究分担者 |
小林 靖明 京都大学, 情報学研究科, 助教 (60735083)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 知識発見 / 形式概念解析 / 双クラスタリング |
研究実績の概要 |
本研究は,自然言語データにおける本文とキーワードの関係,Webページ間のリンク構造における参照元と参照先の関係など,2つの離散値属性間の2項関係から部分関係を抽出することによる知識発見を対象とする.研究計画で設定した[課題1]~[課題5」本年度は,[課題1]後者を弱閉集合として集合論的に定式化する,[課題4]これまでに提案されてきた弱閉集合抽出手法を再検証する,の2課題について研究を行った.[課題1]については,離散値属性間の関係の部分集合としての弱閉集合に密度を入れる必要があるが,計画では,(i)密度が数値であることから,数値が持つ性質(例えば全順序関係)を利用する,(ii)密度が持つべき性質を公理として与える,の2方向から検討することにしていた.そのため同時に[課題4]これまでに提案されてきた弱閉集合抽出手法について,それと類似する双クラスタリング(bi-clustering,またはco-clustering)を中心に関連研究調査を行った.その結果,調査した論文はすべて密集合について,「密」という概念を一つのモデルに従って定義しており,データの持つべき性質から「密」を定義しているわけではない,ということが判明した.そこで,離散値属性という性質を有効に利用し,モデルではなくデータに基づく「密」の定義を導入するため,方針(ii)をモディファイして(ii)'アルゴリズムによる「密」性の定義を着想するに至った.[課題4]については,文献調査だけではなく,数値実データの提供を受ける機会があり,数値データの密性について検討も行った.また,構造的離散データの典型例についての密性を検討するため,データ間の距離アルゴリズムの研究の進化も行った.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
本年度の計画では,[課題2]弱閉集合に対しても閉集合と同様の束理論を構成する,をあげていたが,関連研究調査の結果がモデル依存の結果ばかりであることから,[課題1]の目標を(ii)から(ii)'に修正したため,束理論の構成まで辿り着かなかった.
|
今後の研究の推進方策 |
[課題1]の目標を(ii)から(ii)'に修正したため,[課題1]そのもの,および他の課題の推進にもめどが立ってきた.具体的に(ii)'アルゴリズムにより「密」性の定義するために,グラフ合成積を利用した定式化を手掛かりに検討を開始する.並行して,[課題2]弱閉集合に対する閉集合と同様の束理論を構成に着手する.また,[課題3]弱閉集合に対する不動点意味論の構成については,閉集合がある関数を2度繰り返し適用しただけ得られる不動点として特徴付けらてしまい,数学的に強すぎ,実用の際に細かすぎることに着目して研究に着手する.一般に,不動点は関数を任意有限回繰り返し適用して漸近的に得られるものであり,データマイニングや機械学習のアルゴリズムには,,EMアルゴリズムやPageRankアルゴリズムそのような繰り返しを持つものが多いことを参照しながら,不動意味論の構成にとりかかる.
|