研究課題/領域番号 |
24520173
|
研究種目 |
基盤研究(C)
|
研究機関 | 明海大学 |
研究代表者 |
矢島 ますみ 明海大学, 経済学部, 准教授 (80220135)
|
研究分担者 |
前田 利之 阪南大学, 経営情報学部, 教授 (70320041)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 小唄 / テキストマイニング / 形態素解析 / クラスター分析 |
研究概要 |
本年度は、まず江戸小唄と名称される小唄の歌詞と、舞踊小唄としてSPおよびシングル・EPレコードに吹き込まれている歌詞のうち、いくつかををテキストデータ化した。方法としてはスキャナーでスキャン後、OCRソフトによりテキスト化を行い、一部については人手により確認および修正の作業をおこなった。 その上で、フィージビリティスタディとして、テキストマイニングによって、歌詞の作家による傾向の抽出・分類が可能かを検証した。具体的には、まず西條八十と平山盧江が作詞した小唄の歌詞をそれぞれ30曲分用意し、RMeCaB によるクラスター分析を試みた。RMeCabとは統計解析環境である R から,日本語形態素解析器 MeCab を利用する ためのインターフェイスであり、形態素解析と統計解析処理を統合的に行えるテキストマイニングツールである。 本分析においては、それぞれの作詞家の曲を3グループにわけ、それぞれ saijo_1.txt, saijo_2.txt, saijo_3.txt, hirayama_1.txt, hirayama_2.txt, hirayama_3.txt というテキストファイルを作成し、名詞、動詞、形容詞を抽出し、データ間距離についてはキャンベラ距離を、クラスター作成方法については分散を最小にするよう併合するウォード法を用いた。その結果、西條、平山のそれぞれの3ファイルがクラスタを作り分類されることが確認でき、テキストマイニング技術による自動分類の可能性が認められた。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初の予定では、初年度は環境整備(歌詞テキストの電子化および、テキストマイニングツールの整備)で終了する予定であったが、初年度のうちに部分的にではあるが実際にテキストマイニング処理を行い分析をおこなった。これにより、当初の計画以上に進展していると考えられる。
|
今後の研究の推進方策 |
まず、歌詞の電子テキスト化について、一部未達成のところがあるので、早急に電子化を進めたい。また、本研究の対象となる歌詞は昭和初期のものであるため、テキストマイニングにおける形態素分析ツールについて、特に辞書部分については対応について再度検討が必要であろう。 その上で、自立語の出現頻度を比較して、舞踊小唄、一般小唄それぞれに特徴的な語彙が使われているかどうかを調べる。この比較的単純な分析で明確な特徴が表れてくるかどうかは不明であるが、テキストデータの確認の意味も含め処理をおこなう。さらに、対応分析をおこない、舞踊小唄、一般小唄それぞれのカテゴリーの関連性を調べる。上の出現頻度を調べた結果をうけ特徴的な語彙について、この対応分析を行うことで、特徴パターンを抽出できると考える。
|
次年度の研究費の使用計画 |
電子テキスト化、辞書整備に対する謝金と、打ち合わせ、成果発表の旅費、および必要な資料の購入、が研究費の主たる使用となる。
|