• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2017 年度 実施状況報告書

自己相関関数に基づく文書主題と文書構造を考慮した文書検索手法の開発

研究課題

研究課題/領域番号 16K00160
研究機関昭和大学

研究代表者

小倉 浩  昭和大学, 教養部, 准教授 (40214100)

研究期間 (年度) 2016-04-01 – 2021-03-31
キーワード自己相関関数 / 確率過程 / ポアソン点過程 / 混合ベルヌイ分布 / WAIC
研究実績の概要

文書中に頻出する語の自己相関関数(ACF)に関して,長い文書範囲に渡って相関を示す語についての研究を進めた.長い文書範囲に渡って相関を示す語は,その文書にとって重要な概念を表現するために必要不可欠な語であり,その文書を特徴づける語として例えば文書検索において大切な役割を果たすことが予想される語である.
H28年度までの研究で,頻出語には長い文書範囲に渡って相関を示す語と,語が出現した文の直後の文とさえ相関を示さない語の2つのグループに分けられることをすでに示した.また,相関を示さない語グループについては,その語の出現を規定する確率過程としてポアソン点過程を仮定すると,このグループに特徴的な自己相関関数の関数形が再現可能であることを明らかにした.こうした経緯を踏まえて,H29年度は長い文書範囲に渡って相関を示す語グループについて,その出現を規定する確率過程の性質を調べた.
その結果,長い文書範囲に渡って相関を示す語グループについて,文中で考えている語が出現するか否かを記述する確率過程は,2つのベルヌイ分布の混合分布で記述できる可能性があることが明らかとなった.ここで考慮する2つのベルヌイ分布のうちの一つについては,その成功確率が考えている語の過去の文中での出現履歴を考慮したもので与えられる.どの程度の過去までさかのぼって履歴を考慮するかについては,WAIC(Widely Applicable Information Criterion)を用いて判断する手法が有効であることも明らかとなった.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

H29年度までの研究成果により,ACFの計算方法の確立,ACFを記述するための経験的関数の確立,ベイズ情報基準量を用いた語の重要度を測る指標の確立など,研究開始当初想定していた課題のうち半分程度が達成された.さらに,H28年度の研究過程で明らかとなった,文書中の頻出語の2つのグループのうち,他の文と相関を示さない語グループについては,その出現過程の確率過程モデルも明らかにした.加えて,長い文書範囲に渡って相関を示す語グループについても,その特徴的な文書中での出現パターンを再現可能な確率過程モデルが発見できた.現在の課題は,長い文書範囲に渡って相関を示す語について,本研究が提案する確率過程モデルがどの程度の適用範囲を持つのか(文書の種類,ジャンルなどを問わず適用できるか,現在のモデルを拡張したより一般的な状態空間モデルが必要となるかなど)を調べることである.この課題については,想定する確率過程モデルが含むパラメータ値を,実際の語出現パターンに適合するように推定するマルコフ連鎖モンテカルロ法の適用方法がH28年度中に確立できたため,原理的な困難はない.研究成果を論文化する作業が若干遅れているが,研究成果は着実に蓄積されている.これらのことより,研究進捗状況としてはおおむね順調に進展していると評価できる.

今後の研究の推進方策

混合ベルヌイ過程を前提とすれば,長い文書範囲に渡って相関を持つ語に特徴的な文書中での語の出現パターンが再現可能であるとの結果(研究実績の概要で述べた結果)は,まだ十分に検証されたものであるとは言えない.なぜなら,考えている確率過程モデルのパラメータ推定をマルコフ連鎖モンテカルロ法により行っているため,パラメータ推定に必要な計算量が大きいからである.このため,H29年度中は,自己相関関数を計算済みの12個の文書のうちの一つの文書についてのみ頻出語のパラメータ推定を行った.提案モデルの妥当性を議論するためには,全文書を用いて検証を行う必要がある.パラメータ推定の効率を向上させるため,計算速度がある程度確保できる,並列計算可能な計算機を導入することによってこの問題に対処する予定である.
上記結果が検証されれば,長い文書範囲に渡って相関を持つ語についての特徴が明らかとなるため,その結果を踏まえて文書検索に語の自己相関関数を応用する手法の確立に取り組む予定である.具体的には,比較的長い学術論文の特徴語の検出を自己相関関数およびその拡張指数型関数によるフィッティング結果から得られるベイズ情報基準量を用いて行い,その結果をもともとの論文キーワードと比較することで,自己相関関数を用いた重要語の抽出手法の確立を目指す.

次年度使用額が生じた理由

計算効率向上のためにある程度の計算速度を確保できる計算機を購入する予定であったが,購入する計算機の要件定義を明確化するために,ある程度の経験が必要であった.具体的には,メモリ容量を重視するのか,あるいはGPUによる並列計算の効率化が必要なのか,あるいはマルチコアCPUによって計算効率を確保するのかという問題である.
H29年度の研究により,RStanを使用したマルコフ連鎖モンテカルロ法により,時系列データに対して確率過程モデルのパラメータ推定が可能であることが明らかになったため,購入する計算機の要件としてマルチコアCPUによる計算速度の確保が最も重要な要件であることが判明した.H30年度において,この要件を満たす計算機を購入する予定である.

  • 研究成果

    (7件)

すべて 2018 2017

すべて 雑誌論文 (2件) (うち査読あり 2件) 学会発表 (4件) (うち招待講演 1件) 図書 (1件)

  • [雑誌論文] What did first-year students experience during their interprofessional education? A qualitative analysis of e-portfolios2018

    • 著者名/発表者名
      Rintaro Imafuku, Ryuta Kataoka, Hiroshi Ogura, Hisayoshi Suzuki, Megumi Enokida and Keitaro Osakabe
    • 雑誌名

      Journal of Interprofessional Care

      巻: 32(3) ページ: 358-366

    • DOI

      https://doi.org/10.1080/13561820.2018.1427051

    • 査読あり
  • [雑誌論文] セクシュアル・マイノリティに対する 大学生の意識と態度:第1報2017

    • 著者名/発表者名
      須長史生, 小倉浩, 堀川浩之, 倉田知光, 正木啓子
    • 雑誌名

      昭和学士会誌

      巻: 77(5) ページ: 530-545

    • 査読あり
  • [学会発表] RStanによる語出現時系列データの解析2018

    • 著者名/発表者名
      小倉 浩,天野 弘美
    • 学会等名
      2018 Workshop on Text Mining and Discrete Spectral Analysis
    • 招待講演
  • [学会発表] テキストマイニングの手法を用いた ポートフォリオ記述文書の特徴把握 (3)2017

    • 著者名/発表者名
      小倉浩,天野弘美,刑部慶太郎,片岡竜太,鈴木久義,今福輪太郎, 榎田めぐみ,木内祐二,田中一正,倉田知光
    • 学会等名
      第49回日本医学教育学会大会
  • [学会発表] テキストマイニングの手法を用いた ポートフォリオ記述文書の特徴把握 (4)2017

    • 著者名/発表者名
      天野弘美,小倉浩,刑部慶太郎,田中一正,倉田知光
    • 学会等名
      第49回日本医学教育学会大会
  • [学会発表] 初年次における多職種連携学習の教育効果2017

    • 著者名/発表者名
      鈴木久義,小倉浩,片岡竜太
    • 学会等名
      第49回日本医学教育学会大会
  • [図書] 入門医療統計学 -日々,根拠のある判断をするために-2017

    • 著者名/発表者名
      小倉 浩,近藤雅人,鈴木桜子
    • 総ページ数
      340
    • 出版者
      京都廣川書店
    • ISBN
      978-4-909197-07-8

URL: 

公開日: 2018-12-17  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi