研究課題/領域番号 |
16018225
|
研究機関 | 国立情報学研究所 |
研究代表者 |
高須 淳宏 国立情報学研究所, 実証研究センター, 教授 (90216648)
|
研究分担者 |
相澤 彰子 国立情報学研究所, 情報学資源研究センター, 教授 (90222447)
相原 健郎 国立情報学研究所, ソフトウェア研究系, 助教授 (90300706)
桂 英史 東京芸術大学, 美術学部, 助教授 (60204450)
横溝 廣子 東京芸術大学, 大学美術館, 助教授 (90205229)
|
キーワード | 重要語抽出 / 文書処理 / インタビュー映像処理 / 漆工芸 / 近似テキスト処理 / デジタルアーカイブ |
研究概要 |
本研究は、芸術分野の情報を縦横に結合し活用する際の基本情報として重要な専門用語を多用な情報源から抽出し、辞書を構築するための支援システムを構築することを目的としている。特に、(1)芸術分野の文献資料や専門家のインタビュー映像など多様な情報源と連携した辞書の構築法、(2)複数の専門家による辞書編集を支援するグループウェアシステムの構築に関する研究を行い、また、東京芸術大学が所蔵する漆工芸品に関する電子辞書の構築を試みることによって、モノづくりに関する情報アーカイブの活用に適した辞書の形態とその効率的な構築法を明らかにすることをねらっている。 平成16年度は、辞書編集に用いる資料の電子化に関する研究として、文書からのテキストデータの獲得とインタビュー映像の処理に関する課題を中心に研究を進めた。文書からのテキストデータの獲得については、文書画像処理技術を用いたテキスト獲得システムを構築し、スキャニングした本や文献から構造化されたテキスト情報を獲得するシステムを試作した。このシステムは、文字認識システムとページレイアウト解析システムより構成されており、スキャニングした文書画像中のテキスト部分を精度高く認識するとともに、美術分野では特に重要な役割を果たす図表や写真を精度高く抽出することができる。現在、図表とテキストとの関連付けを行い、より高レベルな構造化文書の抽出するための研究を進めている。 インタビュー映像については、映像のセグメンテーションや音声認識、美術工芸分野のインタビュー映像に対する利用者インタフェースを含むインタビュー映像編集支援システムの設計および開発を進めた。また、インタビュー映像に音声認識技術を適用して得られたテキストデータから重要語を抽出するために、音声認識誤りを扱うための近似文字列処理法の研究を進めた。インタビュー映像では、話者がある程度特定できる。そこで、学習可能な認識誤りパターン記述言語を設計し、話者ごとに認識誤りパターンを定効率よく定義することによって、精度の高いテキスト処理を可能した。現在、これらのシステム・技術を国立情報学研究所で進めている漆工芸分野の作家・専門家に対するインタビューアーカイブに適用して評価を行っている。
|