研究課題/領域番号 |
21240011
|
研究機関 | 東京大学 |
研究代表者 |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
研究分担者 |
吉田 稔 東京大学, 情報基盤センター, 助教 (40361688)
佐藤 一誠 東京大学, 情報基盤センター, 助教 (90610155)
|
キーワード | 機械学習 / ネットワークデータ / Web / 統計 / 曖昧正解消 / プライバシー保護 / データマイニング / 言語学習 |
研究概要 |
本年度は、繰り延べ理由であったプライバシー保護データマイニングと当初計画で推進した研究の総仕上げと成果発表を行った。まず、プライバシー保護データマイニングに関しては、多数の個人がネネットワークで接続し、直接の送受信のある相手との交信状況しか分からない状態で、全加入者からの交信履歴情報は集めるが、各参加者は自分に情報が流出しないという制約下で、ネットワークの参加者のEMアルゴリズムを行う。プライバシー保護のためにデータは準同型性公開鍵暗号で暗号化し、暗号化したままで行える加算を基礎にしたアルゴリズムおよび参加者間のプロトコルを設計した。この成果はPAKDD2012で採択された。 本研究の当初計画の仕上げとしては、大規模データに適したオンライン学習で、正則化によってロングテール情報を喪失する傾向があることへの対策として、識別器が安定した重み持つ特徴は排除しない制約を加えることに成功し、この問題への解決の有力な解決策をしめした。この内容はデータマイニングの最難関国際会議ICDM2012にて論文が採択された。また、Wikipediaからのロングテール情報の抽出手法として、半教師有り学習を基礎にし、判例データを高い確率で排除する情報抽出アルゴリズムを開発した。この方法で、is in, live in などの類似な関係を表現する言い回しを抽出でき、テキストデータベースかたの情報抽出における有力なアルゴリズムを提案し、計算言語学の最難関国際会議であるACL2012において論文採択された。最後に言語学習においては、学習者の言語能力に適応して単語に対訳を附するシステムを開発し、その結果はACMの論文誌に採録が決定した。
|
現在までの達成度 (区分) |
理由
24年度が最終年度であるため、記入しない。
|
今後の研究の推進方策 |
24年度が最終年度であるため、記入しない。
|