研究課題/領域番号 |
17H01788
|
研究機関 | 京都大学 |
研究代表者 |
山本 章博 京都大学, 情報学研究科, 教授 (30230535)
|
研究分担者 |
小林 靖明 京都大学, 情報学研究科, 助教 (60735083)
久保山 哲二 学習院大学, 付置研究所, 教授 (80302660)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 知識発見 / 形式概念解析 / 双クラスタリング |
研究実績の概要 |
本研究は,自然言語データにおける本文とキーワードの関係,Webページ間のリンク構造における参照元と参照先の関係など,2つの離散値属性間の2項関係から部分関係を抽出することによる知識発見を対象とする.研究計画で設定した[課題1]~[課題5]のうち,本年度は,[課題1]閉集合が数学的に定義されているためノイズを許さないため実用に向かないことがある一方,密集合は実応用から提案されたためノイズを許容するものの数学的な定義がない,という相補的な点に着目し,密な部分関係を弱閉集合として集合論的に定式化する[課題3]の弱集合に対して,閉集合と同様の不動点意味論を構成する,[課題5]弱集合の効率的列挙アルゴリズムの開発と実用性検討,の3課題を中心に研究を展開したした. [課題1]については,閉集合をグラフ理論のことばを用いれば,2部グラフの完全部分グラフという解釈が可能であることに着目し,グラフ理論における完全グラフの定義を弱めたk-Plexという概念を範として,弱集合を(k,l)-閉集合として定式化した.以下では弱集合を(k,l)-閉集合とよぶ. そして,[課題3]の不動点を構成するための反復関数を,オリジナルの閉集合のための反復関数を修正して定式化した上で,(k,l)-閉集合と反復関数の不動点の関係を与えた.閉集合の場合は,反復関数の不動点と閉集合は1対1に対応するが,(k,l)-閉集合の場合は必ずしも1対1にはならないこと,そもそも反復関数が収束しないことがあることも示した.これらの結果をもとに,[課題5]に取り組み,閉集合の高速列挙アルゴリズムであるLCMを修正することにより,(k,l)-閉集合の列挙が可能であることを示した.このアルゴリズムは,理論上は高速な列挙が不可能な場合もあるが,現実の小規模データに対しては十分高速に列挙することを確認した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
昨年度は,基礎調査と[課題4]に時間をとられたため,他の課題の進捗が思わしくなかったが,本年度は,
なお,[課題2]の(k,l)-閉集合に対しても閉集合と同様の束理論を構成する,をあげていたが,(k,l)-閉集合と不動点の関係が,当初予想していたものとは異なり,完全に1対1ではないことがわかり,むしろこの方が自然な結果であることから,束理論の構成までには至っていない.
|
今後の研究の推進方策 |
上述したように,[課題2]の(k,l)-閉集合に対する束理論・順序代数理論の構成が遅れているので,(k,l)-閉集合からなる順序代数を定義して束が構成できるための条件を吟味するなど,課題を詳細化して,成果を得ることを目標とする. [課題3]については,(k,l)-閉集合を構成するため反復関数は,初期値をうまく設定すれば反復関数を任意有限回繰り返し適用して(k,l)-閉集合が得られる一方で,別の初期値では何度繰り返し適用しても収束しないという事実が見つかっている.そこで,どのような初期値を与えれば(k,l)-閉集合に収束するかについて吟味を行い,反復関数が収束するための条件を与える.その際,昨年度に行った[課題4]の調査結果や,よく知られたEMアルゴリズムやPageRankアルゴリズムに対する不動点意味論を参考にする.[課題5]については,本年度の研究において,設計した(k,l)-閉集合の列挙アルゴリズムは,実用上は十分効率的であるが,理論上は部分グラフをすべて探索するため指数時間かかってしまう,という性質を明らかにしている.さらに,この列挙アルゴリズムと不動点意味論との関係が明確にはなっていないという問題がある.そこで,課題3と連携させて,不動点意味論と列挙アルゴリズムの関係を明確にし,より理解しやすく数学的に特徴づけのしやすい列挙アルゴリズムの設計を目指す.さらに,大規模な実データを用いた計算機実験により,実用性の検討を行う.
|