読者です 読者をやめる 読者になる 読者になる

roombaの日記

読書・非線形科学・プログラミング・アート・etc...

DNA上の塩基配列とアミノ酸の対応関係を木構造で表現する

可視化 雑記

目次

はじめに

前提知識

われわれの体はタンパク質で出来ており、タンパク質はアミノ酸がたくさんつながることによって構成されています。そのアミノ酸の配列というのがどう決まるかというと、DNA上のA(アデニン)・T(チミン)・G(グアニン)・C(シトシン)の並び方から定まります。

ではDNA上のATGCの配列とアミノ酸はどのように対応付けられるのでしょうか?

物理学者のジョージ・ガモフは、ATGCからなる三文字の文字列(ATC, GCAなど)がそれぞれアミノ酸に対応していると考えました。なぜなら、ATGCの4種類の文字をn文字並べた場合4のn乗通りの文字列が存在しますが、n=2では4^2=16、n=3では4^3=64となり、アミノ酸が20種類であることを考えるとn=3文字の場合が最も妥当であると予想されるからです。

その後ガモフの正しさが証明され、DNA上のATGCからなる3文字の塩基配列が20種類のアミノ酸を冗長にコードしていることが分かりました。

(もう少しちゃんとした説明↓)
コドン - Wikipedia

この記事の目的

このような「3文字の塩基配列(コドンといいます)」と「アミノ酸」の対応を示すために、一般的には以下のような表が用いられます。灰色に示したのがコドン、その右が対応するアミノ酸の略称*1です。

TTTPheTTCPheTTALeuTTGLeu
TCTSerTCCSerTCASerTCGSer
TATTyrTACTyrTAA停止TAG停止
TGTCysTGCCysTGA停止TGGTrp
CTTLeuCTCLeuCTALeuCTGLeu
CCTProCCCProCCAProCCGPro
CATHisCACHisCAAGlnCAGGln
CGTArgCGCArgCGAArgCGGArg
ATTIleATCIleATAIleATGMet/開始
ACTThrACCThrACAThrACGThr
AATAsnAACAsnAAALysAAGLys
AGTSerAGCSerAGAArgAGGArg
GTTValGTCValGTAValGTGVal
GCTAlaGCCAlaGCAAlaGCGAla
GATAspGACAspGAAGluGAGGlu
GGTGlyGGCGlyGGAGlyGGGGly

しかしながら、この表をみても直観的に理解しにくいように思います。

そこで、この記事では塩基配列とアミノ酸の対応表を木構造的に展開してみることにします。

木構造的な可視化

同様の例

以前の記事では、モールス信号の「・」「-」とひらがなの関係を木構造にして可視化しました。同様の考え方をここでは用います。roomba.hatenablog.com

方法

ATGCの4種類からなる3文字の塩基配列を順番に分類してゆきます。
まずは1文字目がどの文字かで4方向に枝分かれし、2文字目に応じてそれぞれがまた4方向に枝分かれし、3文字目でも同様に枝分かれします。最終的には4^3=64方向に枝分かれすることになりますね。

結果

結果(全体版)

以下のようになります。スペースの都合で2列に分割して表示しました。

複数の塩基配列が同一のアミノ酸に対応することがあります(冗長性)。その場合はアミノ酸の略称を同じ文字色に統一しました。
f:id:roomba:20151024233749j:plain

結果(拡大版)

みにくいので拡大図を貼りました。

Tから始まる分

f:id:roomba:20151024234658j:plain

Cから始まる分

f:id:roomba:20151024234659j:plain

Aから始まる分

f:id:roomba:20151024234701j:plain

Gから始まる分

f:id:roomba:20151024234656j:plain

わかること

木構造によって表現された塩基配列とアミノ酸の対応を眺めていると、同じ文字色(すなわち同じアミノ酸)が4段ないし2段連続することが多いということが分かると思います。

これが何を意味するかというと、

→ 3文字目によらず、1文字目と2文字目だけでアミノ酸が定まる

→ 1文字目と2文字目だけでアミノ酸が2択に絞られる

ということになります。
これは冗長性という風に言うことができると思うのですが、なぜアミノ酸の種類によって冗長性が異なるのかはよく知りません。化学的な都合なのか、情報の圧縮的なことなのでしょうか???

おわりに

表の作成は以下の本を参考にしました。この本を読みながらこの記事の内容をふと思いついたのですが、特に深い関係はありません。

数学で生命の謎を解く

数学で生命の謎を解く