研究課題/領域番号 |
15H03383
|
研究機関 | 埼玉学園大学 |
研究代表者 |
菰田 文男 埼玉学園大学, 経済経営学部, 教授 (60116720)
|
研究分担者 |
井口 知栄 慶應義塾大学, 商学部(三田), 准教授 (20411209)
林 倬史 国士舘大学, 経営学部, その他 (50156444)
中山 厚穂 首都大学東京, 社会科学研究科, 准教授 (60434198)
荒井 将志 亜細亜大学, 国際関係学部, 講師 (70549691)
|
研究期間 (年度) |
2015-04-01 – 2018-03-31
|
キーワード | テキストマイニング / データマイニング / 知の構造化 / BOPビジネス / 国際化 / 日本企業 |
研究実績の概要 |
本年度は前年度におこなった解析(『日本経済新聞』、JETROの報告書のBOPビジネス関連テキストデータを用いた解析)の精度を高めるため、「鳥瞰図描画型テキストマイニング」と「ピンポイントフォーカス型テキストマイニング」という概念を導入し、精度向上のためには前者にとどまるのではなく、後者にまで進んだ解析が必要であることを論じた。後者は重要な意味を体現していながら、出現頻度が少ないために膨大なノイズの中に埋没してしまい、解析から脱落しがちな「重要語」を含んでいる箇所に可能な限り的確にピンポイントで辿り着き、さらにまたこの「重要語」を文脈から切り離して抽出するするのではなく、構文を持つ基本句・基本文の中に位置づけて抽出するためのマイニング手法である。 この「ピンポイントフォーカス型テキストマイニング」手法を開発し提起するために、日本経済新聞社の刊行する『日経ビジネス』誌、世界銀行の多数のスタッフが公開しているブログ、世界のBOPビジネスにかんする業界誌などのテキストデータをとりあげ、それを5文単位のテキストブロックに加工してラベリングし、これをマイニング単位とした。5文を単位としてテキストブロックを作成した理由は、文脈の最小単位は5~10文程度であると仮定するからであり、さらにまたこの文脈を表現する基本句・基本文を作成するにはこの程度の長さが最適であると考えられるからである。 この手法を適用するために、(1)特長語を起点として構文を構成する諸先行研究、(2)重み布置多次元尺度構成法にかんする研究をはじめとする多くの諸先行研究等に依拠した。 以上の結果は複数の論文として執筆され、刊行を予定している。 さらに以上の分析結果が現実のBOPビジネスを的確に反映しているかどうかを知るために、昨年度に引き続いてフィリピン、ベトナム等のBOPビジネスの実態について調査し研究報告をおこなった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究の基本的な目的はテキストマイニング手法の開発であるが、この手法の開発のための素材として発展途上国の経済開発に貢献できると期待されるBOP(Base of the Pyramid)ビジネスにかんするテキストデータを用い、解析結果の妥当性の検証をおこなうので、日本企業および欧米企業のBOPビジネスの実態の現地調査と分析をおこなう。したがって、その動向を知るという派生的な研究目的がある。 昨年度はテキストマイニングについての研究は、テキストデータの収集、その解析のためのデータ加工などが中心になり、大きな進展はなかったのに対して、後者のBOPビジネスの実態調査についてはフィリピン、ベトナムなどの調査などを通じて研究の進展があった。本年度はテキストマイニング研究については、複数のテキストデータを用いて、マイニングから得られる意味・知識の精度を高めるという本来の研究目的を達成するための試みにかんして、かなりの進展が得られた。すなわち、出現頻度が少ないにもかかわらず重要な意味を含んでいる語にピンポイントで辿り着くための手法としてのテキストブロックの作成とそのラベリング、テキストブブロック間の類似性の発見等による重要なテキストブロックの発見、この類似性を利用した基本句・基本文の作成と進化のための手法を提示するための準備作業をおこなうことができた。 さらにこのテキストマイニング手法をBOPビジネに適用し、東南アジア諸国のBOPビジネスの動向についての現地調査結果とすりあわせをおこなうこともできた。
|
今後の研究の推進方策 |
1年目の研究において、テキストマイニング手法を工夫するために必要なテキストデータの収集、マイニング可能な形式への加工、予備的検索をおこない、2年目の研究において「鳥瞰図描画型テキストマイニング」から「ピンポイントフォーカス型テキストマイニング」にまで進むことによってマイニング精度を向上させるための手法を提起することができた。次の課題は「ピンポイントフォーカス型テキストマイニング」によってマイニング精度を高めるために、テキストデータをどのように加工するのが適切であるのか、その解析のためにどのようなツールと統計解析手法を適用することが望ましいのかなどについての研究をさらに深めることである。 そのために、5文程度のテキストブロックの作成とラベリングの意義が大きいことは確認済みであるが、さらにテキストブロックをさまざまな大きさ(たとえば3文単位、10文単位、パラグラフ単位、節単位等々)で抽出し比較することによって、マイニング精度の向上に望ましいテキストブロックの大きさを発見する。 さらに、テキストブロック間の類似性を発見するために、クラスター分析やその他の解析手法のいずれが適切であるのかの研究も重要な分析課題となる。 またテキストデータから精度の高い意味・知識を発見するためには、形態素や語の単出現頻度や語と語の共起出現頻度のように「形態素」「語」の括りで論じているのでは不十分であり、構文を持つ句や文として論じられることが必要であるという基本的な認識に立って、基本句・基本文を作成し、それを適切な方向に進化させてゆくための手法を提起することを目指す。 そのためにBOPビジネスの実態調査についてもフィリピン、ベトナムを中心に継続し、「ピンポイントフォーカス型テキストマイニング」手法の解析結果の評価・検証に利用する。
|