研究課題/領域番号 |
24500308
|
研究種目 |
基盤研究(C)
|
研究機関 | 長岡技術科学大学 |
研究代表者 |
中平 勝子 長岡技術科学大学, 工学部, 助教 (80339621)
|
研究分担者 |
上村 圭介 国際大学, 付置研究所, 准教授 (10319014)
三上 喜貴 長岡技術科学大学, 工学(系)研究科(研究院), 教授 (70293264)
北島 宗雄 長岡技術科学大学, 工学部, 教授 (00344440)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | 情報社会学 / オープン性 / Webマイニング |
研究概要 |
(1)Webページのクローリングを効率的に行うための準備として,現有資産である言語天文台クラスタの内,老朽化したハードウェアの入れ替えや大規模データを保管可能とする環境を構築した.また,(2)に関連して,eSATA対応大容量カセットHDD を大量に導入した. (2)Webクロウラーおよび言語判定エンジンの再整備として,言語判定エンジンについては言語天文台クラスタ内にあった判定エンジンをクロウラー外の高速計算機に再設置を行い,バッチ処理可能な形にした.Webクロウラーについては,稼働可能なクラスタサーバの台数を確認し,それらの動作確認を行った. (3)リンク解析を円滑に行うためのエンジンプロトタイプを作成した.しかし,いくつかの高速化について工夫が必要なため,次年度も改良を続ける. (4)オープン性実態把握のための分析チャートの検証の一環として,オープン性を含めたeネットワークのフレームワークを構築し,現行の特定サイトに着目したリンク解析に言語という軸を加えることで,より確かな分析が可能となることを予測した. 以上の成果は現在普及するインターネットにおけるデジタルデバイドの観測・解析を行うための一次調査として重要である.(1)~(3)については,動作確認を兼ねて,中南米におけるWebクローリングを行い,約8000万Webページを回収の上,言語判定を行った.その結果,言語分布はスペイン語・英語を中心に300言語にまたがっていることを見出した.上記の内容の内(4)については,国際シンポジウム1件,論文1件,国内学会2件において公開された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究の目的に対して(1)~(3)については,整備中にも断続的に電源を含めたハードウェア破損が見られるが,これは大規模クラスタを持つ限り常に起こり得る障害であるため,クローリングが物理的にできなくなった状態を除いては進捗に直接影響しない.24年度については3か月にわたるクローリングを運用できたことから,概ね順調な進展であると考える.(4)については,理論的な研究に注力したため,生データでの検証を最後まで行うには至らなかったがこれまで断片的な理解にとどまっていたインターネット普及とデジタルデバイドを繋ぐものの一部についてはフレームワークを構築できたため,概ね順調に進展していると判断した.
|
今後の研究の推進方策 |
(1)昨年度行った中南米におけるクローリングデータの分析を行う. (2)可能であればアジア地域のクローリングを再度行う.ネットワークの状況が良くなければ,旧データを利用する. (3)(1)および(2)におけるオープン性の比較を行い,提案したフレームワークによる解析を試みる. (4)以上の結果を国際会議,または論文誌に成果発表を行う.
|
次年度の研究費の使用計画 |
データ解析用端末1台が破損したため,1台購入予定.また,文献・バッテリーパック・データバックアップ用HDDを追加購入予定である.
|