Реферат: Правила симметрии в записи информации в ДНК международный проект "Геном человека" 1990-2003 г г
ПРАВИЛА СИММЕТРИИ В ЗАПИСИ ИНФОРМАЦИИ В ДНК
Международный проект “Геном человека” – 1990-2003 г.г.
(6 млрд.$). Стартовал проект ENCODE (энциклопедия кодирующих элементов генома). Геном человека состоит из 3-х млрд. пар оснований. Фрагмент записи последовательности (1 млн. страниц текста).
CCTCATTTAGCTCTAGCCCAGTAGAACCACGGCAGAGACTCCCAACA
В ДНК содержится примерно 20-25 тысяч генов, около половины ДНК – многократно повторяющиеся последовательности, кодирующие участки (экзоны) – 2%, интроны – 23%, 75% - межгенная ДНК.
^ Рис. 1. Cпираль Уотсона-Крика
ДНК имеет форму двойной спирали, информация записана в 4-х буквенном алфавите A, C, G, T оснований, C – G, A – T – комплементарные пары оснований.
Исследовались геномы: человека, шимпанзе, мыши, крысы, курицы, рыбы Tetraodon, растения Arabidopsis, C.elegans, дрожжей,
60 бактерий, 30 вирусов.
^ 1. Противоположная полярность цепей ДНК. Запись и считывание оснований на первой нити выполняется слева направо в направлении , а на комплементарной нити в направлении справа налево (рис.2).
Рис. 2. Условная запись двух нитей хромосомы (модель Уотсона-Крика)
Симметрия оснований. На одной нити ДНК выполняются соотношения
n(A) = n (T), n(C) = n(G). (1)
n(i, 1 н.)= n(i, 2 н.), . (2)
Вывод: веса двух нитей совпадают.
^ Симметрия пар оснований из соотношений
n(AC) = n(GT), n(AG) = n(CT)
n(TC) = n(GA), n(TC) = n(CA) (3)
n(AA) = n(TT), n(CC) = n(GG),
или в виде формулы
, (4)
, .
Пары AT, TA, CG и GC отсутствуют в (3), поскольку они приводят к тавтологии.
n(ij, 1 н.)= n(ij, 2 н.). (5)
^ Таблица 1
Геном человека
Пары букв
Хромосома 1
Хромосома 3
Хромосома 6
Хромосома 10
Хромосома 18
AA
21 191 409
19 746 023
17 083 089
12 607 303
7 553 856
TT
21 245 312
19 772 366
17 080 492
12 628 305
7 560 778
AC
11 189 673
9 791 735
8 417 550
6 641 892
3 762 190
GT
11 209 763
9 798 222
8 411 037
6 651 425
3 776 890
AG
15 878 823
13 482 539
11 543 173
9 275 834
5 136 579
CT
15 904 404
13 478 613
11 532 563
9 286 062
5 138 944
CA
16 200 299
13 972 734
11 983 646
9 656 789
5 382 301
TG
16 226 750
13 970 283
11 984 196
9 667 666
5 401993
CC
12 132 633
9 518 322
8 128 472
7 073 095
3 640 163
GG
12 121 539
9 520 091
8 140 958
7 062 604
3 647 384
GA
13 313 713
11 472 583
9 879 809
7 851 856
4 411 285
TC
13 322 934
11 477 596
9 862 177
7 860 740
4 408 666
AT
16 615 348
15 646 889
13 495 077
9 896 788
6 012 563
TA
14 169 829
13 466 193
11 592 344
8 305 870
5 117 737
CG
2 256 627
1 620 941
1 473 327
1 353 534
677 210
GC
9 838 754
7 836 943
6 709 818
5 793 769
3 027 601
Для любой последовательности без пропусков букв с точностью до единицы выполняются соотношения
n(Ai) + n(Ci) + n(Gi) + n(Ti) =
= n(iA) + n(iC) + n(iG) + n(iT), (6)
где .
Для пар AT, TA получаем связывающее ограничение
n(CA) + n(GA) + n(TA) = n(AC) + n(AG) + n(AT). (7)
Для пар CG и GC – соотношение
n(AC) + n(GC) + n(TC) = n(CA) + n(CG) + n(CT). (8)
Утверждение 1. Из симметрии пар оснований вытекает симметрия оснований.
^ Симметрия троек оснований. Кодоны (тройки оснований) связаны следующими соотношениями:
, (9)
где – число троек оснований , , – антикодон кодона .
= , (10)
Таблица 2
^ Количество кодонов в хромосоме 6 генома человека
кодон
число
кодон
число
кодон
число
кодон
число
AAA
6 742 017
TTT
6 744 661
CAG
3 216 761
CTG
3 217 346
AAC
2 509 339
GTT
2 507 886
CCA
2 932 409
TGG
2 932 367
AAG
3 412 539
CTT
3 407 422
CCC
1 980 135
GGG
1 986 846
AAT
4 419 198
ATT
4 420 523
CCG
394 680
CGG
396 760
ACA
3 417 383
TGT
3 417 331
CGA
341 096
TCG
340 572
ACC
1 872 766
GGT
1 869 465
CGC
345 302
GCG
346 653
ACG
391 422
GGT
390 169
CTA
2 226 977
TAG
2 227 635
ACT
2 735 979
AGT
2 734 072
CTC
2 680 818
GAG
2 686 241
AGA
3 741 389
TCT
3 735 896
GAA
3 394 901
TTC
3 388 807
AGC
2 242 727
GCT
2 239 440
GAC
1 533 503
GTC
1 532 047
AGG
2 824 985
CCT
2 821 248
GCA
2 330 699
TGC
2 327 157
ATA
3 684 661
TAT
3 682 369
GCC
1 793 026
GGC
1 794 632
ATC
2 260 505
GAT
2 265 164
GGA
2 490 014
TCC
2 482 545
ATG
3 129 388
CAT
3 128 346
GTA
1 962 626
TAC
1 966 011
CAA
3 229 842
TTG
3 228 944
TAA
3 716 329
TTA
3 718 080
CAC
2 408 697
GTG
2 408 478
TCA
3 303 155
TGA
3 307 301
Для шести пар (3) получаем связывающие ограничения для троек оснований
n(AAC) + n(AAG) + n(AAT) = n(CAA) + n(GAA) + n(TAA), (11)
n(ACA)+n(ACC)+n(ACG)+n(ACT)=n(AAC)+n(CAC)+n(GAC)+ n(TAC), (12)
n(AGA)+n(AGC)+n(AGG)+n(AGT)=n(AAG)+n(CAC)+n(GAC)+ n(TAC), (13)
n(CAA)+n(CAC)+n(CAG)+n(CAT)=n(ACA)+n(CCA)+n(GCA)+ n(TCA), (14)
n(CCA) + n(CCG) + n(CCT) = n(ACC) + n(GCC) + n(TCC), (15)
n(GAA)+n(GAC)+n(GAG)+n(GAT)=n(AGA)+n(CGA)+n(GGA)+ n(TGA), (16)
Утверждение 2. Из симметрии троек оснований вытекает симметрия пар оснований.
Из симметрии последовательностей оснований по индукции вытекает симметрия коротких последовательностей.
Поскольку симметрия в записи оснований по нитям в ДНК обнаружена эмпирически и в настоящее время не существует объяснения этого феномена в природе, то важно найти такую модель, которая будет подтверждать симметрию последовательностей оснований на основе симметрии коротких последовательностей.
Утверждение 3. Для модели однородной цепи Маркова симметрия троек оснований вытекает из симметрии оснований и симметрии пар оснований.
Для однородной цепи Маркова оценки вероятностей троек оснований и совпадают
= ,
где – длина хромосомы, т.е. ожидаемое число повторов троек оснований и совпадают.
Симметрия для последовательностей оснований подтверждается для модели однородной цепи Маркова и вытекает из симметрии пар оснований.
Утверждение 4. Оценка вероятности последовательности совпадает с оценкой вероятности последовательности , т.е.
. (17)
^ 2. Одинаковая полярность цепей ДНК. Симметрия оснований , может выполняться и в том случае, когда обе комплементарные нити ДНК имеют одинаковые направления записи и считывания оснований (рис.3). Однако в природе такой вид симметрии отсутствует.
Рис 3. Одинаковая полярность нитей ДНК
Поэтому из симметрии оснований нельзя вывести симметрию пар оснований.
Симметрия пар оснований = вытекает из соотношений
n(AA)= n(TT), n(CC)= n(GG),
n(AC)= n(TG), n(CA) = n(GT), (18)
n(AG)= n(TC), n(CG) = n(GC),
n(AT)= n(TA), n(CT) = n(GA),
или в виде
. (19)
Для симметрии (19) два ограничения (7), (8) с учетом (19) трансформируются в одно ограничение
n(CA) + n(GA) = n(AC) + n(AG) . (20)
Симметрия троек оснований = вытекает из соотношений
. (21)
Для симметрии (21) к шести ограничениям (11)–(16) добавляются два ограничения
n(ATC) + n(ATG) + n(ATT) = n(AAT) + n(CAT) + n(GAT), (22)
n(CGA) + n(CGC) + n(CGT) = n(ACG) + n(CCG) + n(TCG). (23)
Для симметрии с одинаковой полярностью нитей ДНК справедливы рассмотренные выше утверждения 1–3.
Для однородной цепи Маркова оценки вероятностей троек оснований и совпадают
= .
Утверждение 4 записывается следующим образом.
Утверждение . Оценка вероятности последовательности совпадает с оценкой вероятности последовательности , т.е.
. (26)
Симметрия вида имеет 8 связывающих ограничений для пар оснований, а симметрия содержит 9 ограничений (20), (22). Для троек оснований у симметрии вида на 2 ограничения больше, чем у симметрии .
Поэтому у ДНК с противоположной полярностью нитей больше степеней свободы, чем у ДНК с одинаковой полярностью, т.е. с точки зрения теории информации модель Уотсона-Крика более эффективна.
^ 3. Генерация случайных последовательностей с симметриями обеих видов. С помощью модели цепей Маркова можно легко сгенерировать случайную последовательность, для которой будет выполняться симметрия вида . На основе оценок переходных вероятностей, таблицы 1 и датчика псевдослучайных чисел строится случайная последовательность оснований, совпадающая по длине с хромосомой человека.
Первое основание
Второе основание
A
C
G
T
A
0,3266
0,1725
0,2448
0,2561
C
0,3484
0,2610
0,0485
0,3421
G
0,2864
0,2117
0,2608
0,2412
T
0,2181
0,2051
0,2498
0,3270
Таблица 1: Переходные вероятности в цепочках оснований
ijk
n(ijk)
ijk
n(ijk)
aaa
ttt
6931319
6953141
0,31%
cag
ctg
3968104
3971877
0,09%
aac
gtt
3659367
3667685
0,23%
cca
tgg
4231496
4232443
0,02%
aag
ctt
5196124
5202925
0,13%
ccc
ggg
3166451
3163597
0,09%
aat
att
5430603
5437075
0,12%
ccg
cgg
588979
587592
0,24%
aca
tgt
3906403
3915530
0,23%
cga
tcg
647493
646673
0,13%
acc
ggt
2921470
2925418
0,13%
cgc
gcg
478028
477042
0,21%
acg
cgt
543435
543016
0,08%
cta
tag
3472066
3470901
0,03%
act
agt
3830137
3833597
0,09%
ctc
gag
3261613
3263830
0,07%
aga
tct
4554218
4560669
0,14%
gaa
ttc
4353459
4362550
0,21%
agc
gct
3365393
3365564
0,01%
gac
gtc
2298885
2301870
0,13%
agg
cct
4145751
4152111
0,15%
gca
tgc
3432455
3435791
0,10%
ata
tat
3627798
3630628
0,08%
gcc
ggc
2570998
2566847
0,16%
atc
gat
3408799
3411769
0,09%
gga
tcc
3473521
3480118
0,19%
atg
cat
4152825
4153497
0,02%
gta
tac
2447121
2445778
0,05%
caa
ttg
5298710
5310889
0,23%
taa
tta
4633924
4634246
0,01%
cac
gtg
2797415
2800885
0,12%
tca
tga
4647372
4652712
0,11%
Таблица 2: Статистика по тройкам оснований для цепочек длины 223106 оснований
Количество оснований
Минимальное отклонение
Максимальное отклонение
Среднее отклонение
20000
0,13%
10,39%
2,86%
50000
0,03%
2,86%
1,14%
200000
0,05%
2,27%
0,81%
106
0,02%
0,91%
0,29%
5106
0,01%
0,40%
0,18%
223106
5,110-3%
0,31%
0,13%
Таблица 3: Статистка по относительной разности числа комплементарных оснований
Первое основание
Второе основание
A
C
G
T
A
0,3266
0,1725
0,2448
0,2561
C
0,3689
0,2763
0,0514
0,3034
G
0,3031
0,0514
0,2760
0,3695
T
0,2557
0,2448
0,1725
0,3270
Таблица 4: Новые переходные вероятности в цепочках оснований
ijk
n(ijk)
ijk
n(ijk)
aaa
ttt
7341532
7359207
0,24%
caa
gtt
5149990
5154109
0,08%
aac
ttg
3875183
3882096
0,18%
cac
gtg
2720083
2720158
0,00%
aag
ttc
5502305
5511508
0,17%
cag
gtc
3856752
3859271
0,07%
aat
tta
5752239
5752431
0,00%
cat
gta
4034677
4036244
0,04%
aca
tgt
4379729
4386669
0,16%
cca
ggt
4354970
4352330
0,06%
acc
tgg
3275634
3274232
0,04%
ccc
ggg
3259661
3253668
0,18%
acg
tgc
609760
611086
0,22%
ccg
ggc
605309
603964
0,22%
act
tga
3597609
3602725
0,14%
cct
gga
3575644
3569488
0,17%
aga
tct
5104466
5112922
0,17%
cga
gct
665943
664977
0,15%
agc
tcg
865613
865745
0,02%
cgc
gcg
112966
112580
0,34%
agg
tcc
4647487
4654703
0,16%
cgg
gcc
604063
605586
0,25%
agt
tca
6220361
6216317
0,07%
cgt
gca
810422
810486
0,01%
ata
tat
4503685
4506729
0,07%
cta
gat
3311569
3313749
0,07%
atc
tag
4308309
4308723
0,01%
ctc
gag
3170599
3170147
0,01%
atg
tac
3039110
3035319
0,12%
ctg
gac
2233348
2232147
0,05%
att
taa
5756291
5753158
0,05%
ctt
gaa
4235636
4226579
0,21%
Таблица 5: Статистика по тройкам оснований для нового типа симметрии в цепочке длиной 223106 оснований
Количество оснований
Минимальное отклонение
Максимальное отклонение
Среднее отклонение
20000
0,08%
5,30%
1,95%
50000
0,02%
5,64%
1,50%
200000
0,03%
3,15%
0,69%
106
0,01%
1,35%
0,31%
5106
410-3%
0,50%
0,23%
223106
310-3%
0,34%
0,12%
Таблица 6: Статистка по относительной разности числа комплементарных оснований для нового типа симметрии
еще рефераты
Еще работы по разное
Реферат по разное
Приказ №196 15. 02. 2011 г. Орезультатах проведения II конференции Ассоциации ученических научных обществ
17 Сентября 2013
Реферат по разное
Пресс-служба ОАО «Таттелеком» Дайджест сми
17 Сентября 2013
Реферат по разное
Выступление начальника Управления администрирования сэз «Астана новый город» Маселова М. Х
17 Сентября 2013
Реферат по разное
Нп «сибирская ассоциация консультантов»
17 Сентября 2013