研究課題/領域番号 |
11874018
|
研究種目 |
萌芽的研究
|
配分区分 | 補助金 |
研究分野 |
数学一般(含確率論・統計数学)
|
研究機関 | 名古屋大学 |
研究代表者 |
尾畑 伸明 名古屋大学, 大学院・多元数理科学研究科, 助教授 (10169360)
|
研究分担者 |
大澤 研二 名古屋大学, 大学院・多元数理科学研究科, 助教授 (50203758)
勝又 義直 名古屋大学, 大学院・医学研究科, 教授 (30109326)
井原 俊輔 名古屋大学, 情報文化学部, 教授 (00023200)
|
研究期間 (年度) |
1999 – 2000
|
研究課題ステータス |
完了 (2000年度)
|
配分額 *注記 |
2,100千円 (直接経費: 2,100千円)
2000年度: 1,000千円 (直接経費: 1,000千円)
1999年度: 1,100千円 (直接経費: 1,100千円)
|
キーワード | 色彩パターン化法 / DNA配列解析 / アミノ酸配列解析 / 計量文献学 / 類似性判定 / 情報量 / 局所的周期性 / DNA解析 / アミノ酸配列 |
研究概要 |
文字や数字の1次元配列のデータ解析にあたり、特に、4種類のアルファベットから成るDNAの塩基配列、タンパク質のアミノ酸配列、特定の規則で作られた数字の無限列、単語配列でできている文章などを念頭に置き、分野融合的な研究を試みた。本研究における課題は大きく分けて2つある。第一は個別の問題で、配列が与えられたとき(通常は極めて長大である)その配列の中に隠されている規則性を見いだすこと。第二は配列が多数与えられたときに、それらの類似性を判定することである。具体的な研究対象は、DNAの塩基配列やタンパク質のアミノ酸配列、および単語配列としての文章である。 長大な配列に潜む規則性を探査する為に「色彩パターン化法」(平成12年12月に特許査定)を開発し、大腸菌DNA配列に応用し、これまでに見つかっていなかった局所的な循環配列を検出した。タンパク質に対しては、アミノ酸の親水性・疎水性による標準的な指標を用いた色彩パターンが、大まかな分類には有効であることが示唆された。著者の個性を識別するという観点から、日本語文章における類似性の計量化を検討し、読点の付け方によって著者の癖が識別できる(クラスター分析による)ことが強く示唆される結果を得た。同一著者の経年変化を含め精査するために、約50万語からなる形態素分解データベースを作成中であるが校正に膨大な時間を要している。データ解析の理論面を強化するために、配列の「複雑さ」「階層性」「自己組織化度」を表す特性量として、配列エントロピーに付け加えるべきものを探索すべきであるが、形態素解析データベースの完成を待って、理論と実験を融合させ、この目標に向けた試論を展開する予定である。このように、いくつかの具体的な成果に加え、多くの課題を掘り起こすこととなり、より組織的な研究が必要となっっている。
|