2011 Fiscal Year Research-status Report
Project/Area Number |
23501192
|
Research Institution | Ishikawa National College of Technology |
Principal Investigator |
金寺 登 石川工業高等専門学校, その他部局等, 教授 (50194931)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | 教材情報システム / ビデオ教材 / サブトピック検索 / 検索キーワード補完 / 音声認識 / 講義ビデオ |
Research Abstract |
ブラウザでキーワードを指定し、インターネット上から必要な情報を得ようとしても、 必要のない情報に埋もれて必要な情報を取り出すことが困難であることが多い。特にビデオの場合には、目的の場面の抽出に時間を要する。膨大なビデオ情報から必要なシーンを効率よく検索することは非常に重要な問題となっている。予習や復習のために講義ビデオや各種コンテンツを効率よく活用するためには、必要な教材や教材中の場所を敏速に検索できることが望ましい。 ビデオシーンを検索する際に、学習者の理解が進むにつれて、抽象化表現が多くなる。抽象化表現とは、「演習,解説,本題,導出,まとめ」などのように、直接発話していないが、発話内容を総括したり、イベントを表現したものである。抽象化表現したキーワードに対応するためには、"知識"の活用が必要と考えられる。そこで、知識を活用して、抽象化表現したキーワードにも対応できる講義ビデオ検索システムを開発している。 平成23年度は、まず石川高専における講義 375時間分(15科目×100分×15回、ポータルサイトとして学生に閲覧運用中)、豊橋科学大学における講義 6科目分、学会講演データベース 274時間分について、音声認識性能評価、シーン分割性能評価、シーン検索評価を実施した。次に、検索キーワードを辞書等の知識を利用して補完し、講義をサブトピック検索した。その結果、音声認識された講義音声テキストを3つの検索キーワードでサブトピック検索した場合の平均逆数順位(MRR) は、辞書による検索キーワード補完により 0.51 から0.55 に向上した。また検索キーワード補完は、辞書、下位概念、サブワードの順に有効であることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
下記のように予定通り、研究を実施し、予定の成果が得られた。 [4月] 講義ビデオデータ準備 (15科目×100分×15回)。[5月~8月] 話題分割・シーン分割性能評価。[5月~10月] 話題検索辞書、評価プログラム開発:指定されたキーワードが講義中に発話されていない場合にも対応できるように、キーワードを拡張する知識として、Web辞書、日本語Wordnetを利用した。日本語Wordnetを用いることで、語の上位概念、下位概念、同時出現語などを導出できる。[7月~10月] 連想キーワード作成。[12月~2月] 各種方法による話題検索評価。 指定された連想キーワードに対して、上位概念・下位概念・同時出現語の内、どの概念がどの程度有効であるかを定量的に評価した結果、下位概念が特に有効であることが明らかになった。さらに音声認識誤りがあっても検索が可能となるサブワードモデルを併用した効果も定量的に評価した。サブワードモデルには、Tri-phoneモデルを使用し、モデル間の類似度を事前に計算しておくことで、置換・挿入・脱落などの音声認識誤りがあっても連想キーワードとの類似度を計算可能である。連想キーワードが講義中に出現しない場合には、キーワード拡張が有効であり、音声認識誤りに対してはサブワードモデルが有効であった。
|
Strategy for Future Research Activity |
平成23年度には、各種概念によるキーワード拡張、サブワードモデルを用いたビデオ検索方法の評価を行った。しかし、すべてのキーワードに対して効率よく検索できるとは限らない。そこで、効率よく検索できないケースについて、人間の思考過程を以下のようにルール化する。 [4月~8月] ヒューリステックモデルの作成:与えられたキーワードから何を連想するのか、検索対象の何を手掛かりにしたかを10名の被験者に調査シートに記入してもらう。 [5月~10月] ヒューリステックモデルのルール化: 被験者の調査結果をルール化し、実装することにより、検索効率の向上を図る。 [8月~11月] 個別検索性能評価: ルールベースのヒューリステックモデルを用いる方法について、講義ビデオ検索性能を調査する。各種辞書、統計的モデル(上位・下位概念)によるキーワード拡張、サブワードモデルによる方法による検索結果と比較する。 [12月~2月] 総合検索性能評価結果: ヒューリステックモデル、統計的モデル、サブワードモデルを併用する方法について、講義ビデオ検索性能の改善を調査する。
|
Expenditure Plans for the Next FY Research Funding |
設備備品費 650千円(ハイビジョン映像編集装置380千円、新聞記事データ270千円)消耗品費 237千円(ビデオ保存用HDD(10台) 200千円、ビデオ編集ソフト37千円)旅費 250千円(研究打ち合せ・資料収集250千円)謝金等 363千円(ビデオ編集作業(内訳:5人×24時間)、話題分割作業(内訳:10人×60時間)、連想キーワード作成(内訳:10人×30時間))計 1,500千円
|
Research Products
(3 results)