一般のグラフを生成するような最小のグラフ文法を効率良く見つけることは未だ困難であるので、辺にラベルの付いた根付き木構造について最小の文法を見つける整数計画法による手法を開発した。木文法の生成規則としては、チョムスキー標準形を木構造へ応用した、縦または横に二分割する規則をもつものを用いた。定式化した整数計画問題は木文法の大きさを指定し、その大きさの文法が存在するかどうかを判定する。最小の文法はこの大きさをいくつか試すことで得られる。整数計画問題を効率良く解くアルゴリズムが開発されてはきているが、人工的に作成した子供を多くもつ木に対しては25頂点で7時間程度を要する一方、子供の数が少ない木に対してはある程度の頂点数まで効率良く計算できた。さらにいくつかの糖鎖について、辺のラベルを根とは逆側の頂点の分子名として提案手法を適用し、実際の細胞内での糖鎖の形成と比較はしていないが、最小の生成文法を見出した。 多くのタンパク質は構造的または機能的なユニットであるドメインをもつことが知られている。またヒトなどのいくつかの生物種について、一つのタンパク質に含まれるドメインの種類と総数の分布はそれぞれ指数分布、べき乗則に従う分布となっている。そこで両方の分布が同時に現れるような、生物学的知識に基づいたタンパク質のドメイン獲得モデルを提案した。変異による新たなドメインの形成、遺伝子重複によるタンパク質の複製、遺伝子融合によるタンパク質配列の結合からは、数理的な解析により、ドメインの種類、総数について指数分布となることを示した。さらにタンパク質内部でのドメインの複製を考慮することで、ドメインの種類について指数分布のまま、総数についてべき乗則に従う分布となることを解析と計算機実験から検証した。
|