Лекция: Лекция №19. Геномика

Геномика – комплексная наука, изучающая геномы.

Разделы геномики:

  1. структурная геномика – содержание и организация геномной информации;
  2. функциональная геномика – реализация информации, записанной в геноме, от гена – к признаку;
  3. сравнительная геномика – сравнительные исследования содержания и организации геномов разных организмов;

Все эти разделы геномики вносят вклад в фундаментальную биологию (индивидуальное развитие, эволюция), здравоохранение, сельское хозяйство и биотехнологию.

Итог структурной геномики – получение последовательности нуклеотидов (сиквенс от англ. sequence), которая представляла бы полностью каждую из хромосом с первого нуклеотида до последнего.

Для того, чтобы получить такой сиквенс, сегодня приходится определять последовательность нуклеотидов в достаточно коротких отрезках ДНК, длиной примерно 1000 позиций. В геноме человека 3 миллиарда позиций, значит, его надо разбить на куски, которые и будут «читаться». Затем нужно восстановить единую последовательность нуклеотидов из сравнения отдельных прочтенных отрезков текста. Восстановление основано на сравнении определенных последовательностей и выявлении в них перекрывающихся (идентичных) участков текста. Длина участка перекрывания должна превышать длину последовательности, которая может встретиться в данном геноме по причинам случайного характера. Например, в геноме человека 3*109 п.н. случайно может встретится последовательность длиной 15 нуклеотидов – поскольку в каждой позиции может находится один из четырех нуклеотидов, то вероятность того, что заданные нуклеотиды окажутся в 15 позициях подряд 415 =230 что примерно равно 109. То есть в отрезке длиной 109 позиций заданная 15-нуклеотидная последовательность может встретиться 1 раз по причинам случайного характера.

Но дело в том, что в ДНК нуклеотиды расположены не случайно и это является проблемой для восстановления последовательности из перекрывания отрезков. Если две последовательности из 1000 нуклеотидов перекрываются на 20 нуклеотидов или сто – это еще ничего не значит, так как весь этот фрагмент из 1000 нуклеотидов может быть несколько раз повторен в геноме. Поэтому нужно было сначала расставить вдоль генома фрагменты, а уже потом выявлять их перекрывание на основе сиквенса. Таков был путь мирового сообщества при секвенировании генома человека. (секвенированием в русскоязычной литературе называют процесс определения последовательности нуклеотидов. Этот термин также является калькой с английского названия).

Как это можно было сделать? Нужно было поставить какие-нибудь «буйки» в геноме человека, какой участок стоит за каким. Последовательность таких участков и составляет карту генома. Первой такой картой стала карта генетическая. Она показана на рисунке слева.

Рядом показана окрашенная хромосома, на которой видны поперечные полоски. Поперечная окрашенность индивидуальна для каждой хромосомы, каждая полоска имеет собственный номер, который представляет собой «адрес» данного участка на хромосоме. Ясно, что в каждом таком участке миллионы пар нуклеотидов, последовательность которых мы должны определить. Были получены полиморфные маркеры, то есть найдены такие участки хромосомы, которые у разных людей (или на разных хромосомах одного человека) содержат неидентичные последовательности нуклеотидов. В прошлой лекции упоминалось, что для генетической карты с интервалом в 10% рекомбинации нужно 300 равноудаленных маркеров. Эти маркеры нужны для различения одной хромосомы от другой в данном локусе.

В основе детекции ДНК маркеров лежит метод амплификации (размножения) фрагментов ДНК in vitro с точностью до нуклеотида методом полимеразной цепной реакции (ПЦР). Методом ПЦР можно синтезировать фрагмент ДНК in vitro (в пробирке) и получить его как химически чистое вещество. Для синтеза используются короткие синтетические отрезки ДНК, называемые праймерами (затравка для синтеза). С 3’-конца праймера начинается синтез фрагмента ДНК по матричной нити, на которую он отжигается (прилипает при комплементарном взаимодействии между нуклеотидами праймера и матрицы). За один цикл достройки ДНК из двух нитей ДНК получили 4. В следующем цикле из 4 нитей получится уже 8 и т.д. Каждый цикл занимает несколько минут. За 30 циклов ПЦР целевой фрагмент размножится в 1 миллиард раз, что позволяет наблюдать фрагмент (после окраски). Время проведения каждого этапа ПЦР в будущем сократится на 2-3 порядка, таким образом, что каждый цикл будет проводиться за секунды.

Для различения папиной и маминой хромосом использовали так называемые STR-маркеры (Short Tandem Repeat), состоящие из одинаковых звеньев, чаще всего звено состояло из пары нуклеотидов ЦА. То есть нашли места в геноме, где повторялись эти вкрапленные звенья. Допустим в папиной хромосоме в фрагменте из 100 пар нуклеотидов была вставка из 20 звеньев, а в таком же месте маминой хромосомы было вставлено 22 звена. Этот фрагмент ДНК размножили in vitro, с точностью до нуклеотида методом полимеразной цепной реакции (ПЦР). Длина этих фрагментов будет у папы 100+20*2=140, а у мамы – 100+22*2=144. При фракционировании образованных фрагментов в геле под действием постоянного тока (электрофорез) мы можем провести разделение фрагментов по размеру. Чем тяжелее фрагмент, тем меньше его электрофоретическая подвижность и тем ближе к старту он будет находиться. Если у родителей ребенка длины фрагментов составляли (как указано в примере выше) 140 и 144 п.н., то и у ребенка будут эти полоски присутствовать.

Описанный подход применяется не только в фундаментальных исследованиях, но и в практике идентификации личности при судебно-медицинской экспертизе. Допустим данный локус в хромосоме может находиться в одном из 10 альтернативных состояний. (Эти состояния, аллели, различимы по их электрофоретической подвижности). Эти состояния различают 10 хромосом или людей с такими хромосомами. Если мы возьмем в анализ еще один локус (на другой хромосоме) с такими же характеристиками, то по этому локусу мы тоже различим 10 хромосом или людей. А по сочетанию состояний в этих двух локусах различимы 10х10=102 хромосом. Пять таких локусов позволят различить 105 хромосом. А поскольку хромосом у каждого из нас по паре, то сочетания аллелей этих пяти локусов дают 105 х105 = 1010 вариантов. Это число вариантов больше, чем число людей на земле. На практике при идентификации используют набор аллелей из 13 локусов, хотя и пяти как мы видим, может быть волне достаточно.

Генетическая карта была первой картой генома человека, на основе которой строилась дальнейшая работа по картированию. Эту карту соотнесли с физической картой, показывающей порядок следования клонированных фрагментов ДНК вдоль генома (см. рисунок 1 справа).

Физические карты генома часто представлены наборами фрагментов ДНК, клонированные в векторных молекулах (рекомбинантных ДНК), упорядоченно расположенных относительно друг друга. Такой набор непрерывно перекрывающихся фрагментов ДНК называется контиг. Для того чтобы выявить перекрывание клонированных фрагментов ДНК и понадобилась ранее установленная карта генетических маркеров. Перекрывание устанавливалось между «большими» молекулами ДНК, содержащими примерно 106 пар нуклеотидов, которые были клонированы в искусственных хромосомах дрожжей (YAC-клоны, сокращение от Yeast Artificial Chromosome). Искусственные, потому что у них удалили основную часть собственно дрожжевой ДНК и вставили человеческие фрагменты ДНК. Такие конструкции способны реплицироваться в клетках дрожжей. Размер хромосом дрожжей как раз примерно 1-2 миллиона пар нуклеотидов.

Как устанавливали перекрывание клонированных фрагментов ДНК? У нас есть YAC-клон №1 с протяженным фрагментом клонированной ДНК, а в нем, предположим, обнаружен и маркер А и маркер В, для которых из генетических данных известно, что они соседние на карте. В YAC-клоне №2 уже нет маркера А, а есть маркеры В и С, причем также известно из генетической карты что В и С – соседи. В клоне №3 есть маркеры С и D. Сопоставление данных по присутствию генетических маркеров А, В, С и D в YAC-клонах показывает что они перекрываются в последовательности YAC №1, №2, №3.

Вставки ДНК из 3000 YAC-клонов примерно равны по длине геному человека. В анализ на перекрывание YAC-колонов взяли 30000 клонов, с тем чтобы каждая точка генома перекрывалась несколькими клонами. Вначале неизвестно было, как они расположены, но в среднем каждая точка генома перекрывалась 10 раз. Было использовано порядка 3000 STR-маркеров, и посмотрели, эти как маркеры и клоны друг с другом перекрываются. В качестве метода, выявляющего присутствие генетического маркера в составе YAC-клонов, использовался ПЦР. На заключительном этапе составления физической карты генома человека в этих 30 000 YAC-клонов, выявлено присутствие примерно 30000 маркеров. Это один маркер на 100 000 пар нуклеотидов. Расстояние между концами YAC-клонов также составило 100 000 п.н. (при длине клона 1 млн. п.н.). Картирование проводили на роботизированных машинах, которые проводили приблизительно по 300 000 ПЦР-реакций в день. Позволило расставить в контиг все YAC клоны. Предполагалось, что они будут непосредственно секвенироваться. Однако в дальнейшем была использована друга схема секвенирования клонов. Картированные YAC-клоны часто использовали для поиска генов, находящихся во вставке YAC, а к сиквенсу этот этап не привел.

Перекрывание можно также посмотреть по расположению специфических рестрикционных сайтов. Рассмотрим этот способ подробнее. Структура фрагмента ДНК выявляется по положению участков расщепления специфическими ферментами – рестрикционными эндонуклеазами (рестриктазами). Каждая рестриктаза узнает последовательность нуклеотидов определенной длины и состава. Например, рестриктаза EcoRI узнает GAATTC и никакую другую (расщеплять ДНК она будет в среднем один раз на 46=4096 нуклеотидов), BamHI узнает GGATTC. Предположим, что у нас есть клонированный фрагмент ДНК, длиной 13000 нуклеотидов, и мы расщепили его рестриктазой BamHI, получив два фрагмента по 9 и 4 тысячи нуклеотидов. Затем если мы расщепим EcoRI, получим фрагменты по 8, 3 и 2 kb. Когда мы посмотрим двойное расщепление, получим фрагменты размерами 7, 3, 2, 1 kb. Размеры известны, потому что рядом есть дорожка, в которой идет фракционирование молекул стандартного размера, что позволяет создать калибровочную кривую. Если мы проведем второе расщепление, то увидим, что фрагмент в 9kb расщепился на фрагменты по 7 и 2kb. Эта специфическая последовательность сайтов и специфическое расстояние между ними является портретом молекулы (см. рис. ниже). По этим портретам мы можем сопоставлять молекулы друг с другом, независимо от того, что они кодируют, и что в них находится. Это очень типичная процедура. Расщепление фрагмента ДНК каждой рестриктазой по отдельности и их смесью позволяет создать рестрикционную карту фрагмента.

Итак, мы расставили молекулы методом генетического и физического картирования. Вернемся к методу секвенирования. Использовалась примесь дидезоксинуклеотидов — ddNTP (на рисунке – справа; у них нет OH-группы у 3’-атома углерода), которая добавлялась к обычным дезоксинуклеотидам (на рисунке слева). И при синтезе ДНК in vitro это приводило к прекращениюсинтеза цепи в позиции, в которой вставился ddNTP. Через позицию 3’ идет присоединение нуклеотида к строящейся молекуле ДНК. Но если на 3`- конце не будет гидроксильной группы, а водород, то синтез дальше не пойдет – он будет терминирован.

Это используется следующим образом. У нас есть матрица (нить ДНК), которую надо секвенировать. Если идет синтез, и в первой позиции матрицы стоит А (см. рис. ниже), то может встроиться обычный Т и синтез пойдет дальше, а может встроиться ddТTP и синтез дальше не пойдет. Произойдет обрыв цепи, а полученный синтезированный огрызок займет при фракционировании определенную позицию согласно своему размеру. Следующий обрыв будет соответствовать второй букве секвенируемой нити, и также займет свою позицию согласно длине при фракционировании на электрофорезе и т.д. И так по каждому нуклеотиду. Так мы восстановим последовательность нуклеотидов в секвенируемой нити ДНК. Этот метод предложил Фрэд Сэнгер, за что получил свою вторую Нобелевскую премию.

Рассмотрим определение последовательности нуклеотидов в клонированном фрагменте ДНК. Клонированный фрагмент находится в так называемой векторной молекуле ДНК – молекуле, которая позволяет ввести его в клетку (обычно это клетка бактериальная, но иногда используются и дрожжевые клетки). Все работы по секвенированию генома человека прошли при участии бактериальных векторных молекул. Участок вектора, прилежащий к вставке, содержит последовательность нуклеотидов, комплементарную универсальному секвенирующему праймеру. С этого праймера инициируется синтез ДНК in vitro, который с первого нуклеотида будет идти по матрице клонированного фрагмента ДНК человека. Универсальных праймеров используется два, один к последовательности вектора прилежащей к одному концу вставки, другой праймер к последовательности вектора прилежащей к другому концу вставки. С одного из праймеров клонированный фрагмент секвенируется с одной стороны, а с другого праймера – с другой стороны.

Вектор у нас один и тот же, а вставок – миллионы, но все они секвенировались с одной и той же пары праймеров. Основная часть генома была секвенирована при клонировании фрагментов в 2 тысячи пар нуклеотидов, потому что тысяча читалась с одной стороны и тысяча – с другой. Каждая точка генома человека была просеквенирована несколько десятков раз в составе разных клонированных молекул ДНК. То есть расстояние в геноме между концами клонированных и секвенированных фрагментов ДНК составляло меньше 200 пар нуклеотидов. От каждой точки старта было прочитано около 1000 нуклеотидов. Из всего этого набора «текстов» воспроизводилась структура генома человека. Но собрать эти 1000-буквенные сиквенсы в контиги длинной в мииллионы букв удалось лишь на основе того, что большая часть фрагментов была предварительно картирована относительно хромосом человека. Без картирования сиквенс мог попасть в повторяющийся участок генома, а продолжение сиквенса из такого участка имеет столько вариантов продолжений, сколько раз повтор присутствует в геноме человека (некоторые повторы – миллион раз). Поэтому сначала устанавливали последовательность расположения клонированных фрагментов в геноме. Это было сделано для фрагментов размером около 200 тыс пар нуклеотидов, а уже затем их секвенировали.

Процесс секвенирования по методу Сенгера может быть автоматизирован. Механизм представлен на следующем слайде.

На слайде виден праймер, синтез с которого идет влево. У нас есть дидезоксинуклеотидфосфаты T, A,C и G. Каждый из них занимает свою позицию во фрагменте синтезируемом по исследуемой матричной нити. На предыдущем слайде каждой букве соответствовала отдельная дорожка геля, их всего четыре. Если каждую из букв терминирующих синтез пометить в свой цвет, то все терминаторы можно объединить в одной пробирке и фракционировать продукты в одной дорожке. Обрыв синтеза в позиции данной буквы даст фрагмент со своим положением в геле после фракционирования. Каждое положение обрыва будет характеризоваться цветом той- буквы терминатора, на которой произошел обрыв. В ходе фракционирования терминированных фрагментов лазер будет фиксировать на детекторе последовательные пики — какая прошла полоса по счету, и какого она цвета. Далее эта последовательность пиков дешифруется в последовательность нуклеотидов в молекуле ДНК. Точность сиквенса (установления того, какая именно буква терминировала синтез в данной позиции) определяется соотношением высот пиков соответствующих разным буквам в одной и той же позиции секвенируемого фрагмента. Между двумя пиками разных цветов в одной позиции было заданное дискриминирующее значение. Техника отрабатывалась так, что буква считалась достоверно установленной для данной позиции, если основной пик в этой позиции был выше других в заданное количество раз.

Бактерия H.influenzae была первым свободно живущим организмом, геном которого был полностью секвенирован. Поскольку геном бактерии маленький, около тысячи нуклеотидов, и повторов нем мало (да и короткие они), то предварительное картирование клонированных фрагментов ДНК не понадобилось – эти фрагменты сразу сиквенировались.

Такая работа была проведена в институте генетических исследований ТIGR под началом Крега Вентера. Вентер затем организовал фирму Селера, секвенировавшую геном человека, где он применил ту же схему секвенирования что и для бактерии. Причем деньги он взял у частных фирм, так как государство не верило, что у него что-нибудь получится.

Мировое сообщество предварительно использовало генетическую и физическую карты, относительно которой была выстроена последовательность перекрывающихся фрагментов клонированной ДНК (контиг), предназначенной для секвенирования. То есть сиквенс генома человека был собран из фрагментов правило благодаря использованию упорядоченного набора клонов и установлению последовательности нуклеотидов картированных клонов.

Вентер же, в отличие от мирового сообщества, использовал случайный набор клонов и попытался восстановить полную последовательность нуклеотидов прямо из сравнения сиквенсов всей кучи фрагментов. На бактерии у него это удалось, но на человеке это сработало лишь потому, что он использовал публично доступные данные от мирового сообщества о том, какие молекулы где расположены в геноме человека.

Вентер опубликовал свою работу на месяц раньше, чем мировое сообщество, потому что он ничего не картировал, а использовал секвенирование совсем коротких рекомбинантных молекул. Общую длина секвенированных фрагментов ДНК была у Вентера в пять раз больше, чем сделало все мировое сообщество. Используя данные мирового сообщества о картированных фрагментах, Вентер смог восстановить в единую последовательность нуклеотидов все то, что он насеквенировал. Если бы данных мирового сообщества не было бы, то вся его работа была представлена короткими отрезками, которые бы разветвлялись, из-за того, что в геноме находятся повторы.

В результате проделанной работы вышло две статьи: статья Вентера в журнале Science и статья Лэндера – лидера мирового сообщества — в журнале Nature.

Проект генома человека начат в 1990 г. Первая (черновая) версия последовательности нуклеотидов была закончена в 2000г. Конечная версия, которая больше не будет совершенствоваться (названная Build35) — закончена в 2004 г.

Последняя версия последовательности содержит 2,85 миллиардов пар нуклеотидов с 341 брешью, то есть в этих местах по каким-то причинам секвенировать геномную ДНК не удалось. Сиквенс покрывает около 99% той части генома человека, которая представлены в некомпактизированной форме – эухроматине. Аккуратность сиквенса в конечной версии – 1 ошибка на 100 тысяч позиций подряд. Еще точнее секвенировать весь геном уже никто не будет. Напомню, что папин геном отличается у вас от маминого генома примерно в 1 позиции на тысячу.

Предсказанное число генов у человека теперь 20-25 тысяч, что немного меньше, чем предсказывалось раньше.

Кроме данных о последовательности нуклеотидов геномной ДНК человека (референтная последовательность) созданы также базы данных:

1) о последовательности нуклеотидов транскрибируемых участков ДНК (EST database, EST = Expressed Sequence Tags), которая характеризует не геномную ДНК, а то, транскрибировалось с ДНК.

2) о положении и содержании отличий (полиморфизмов, то есть нуклеотидных замен) других известных последовательностей ДНК человека от референтной последовательности (SNP database, SNP = Single Nucleotide Polymorphism)


Лекция №20. Геномика (часть 2)

Геномика – недавно возникшее направление науки, объектом изучения которой являются геномы всех организмов, не только человека. Одно из направлений геномики — воссоздание суммарной карты метаболических путей живого, состоящей из частных метаболических карт, характерных для каждого организма.

Выявление в разных геномах определенных наборов генов метаболических функций позволяет предположить, функциональную связь генов этого набора в едином участке метаболической цепи. В частности, один из подходов такой. Исследуют ряд видов (рисунок ниже), к примеру, бактерий. У первых трех видов есть гены для белков 1, 3 и 6. Остальные белки у некоторых есть, а у некоторых нет. Этот набор генов (1, 3 и 6) отсутствует у четвертого вида. Такого рода присутствие-отсутствие цельного набора генов позволяет сделать предположение о том, что кодируемые ими белки каким-то образом связаны в метаболическом цикле. Гены такого набора необязательно располагаются рядом в геноме.

Еще один критерий функциональной связи между генами, особо хорошо работающий на бактериях, основан на сохранении соседства одних и тех же (по сиквенсу) генов у разных видов бактерий. У бактерий нередко бывает, что группа генов, расположенных вместе, отвечает за группу последовательных этапов метаболизма. Такая группа генов регулируется на уровне транскрипции единым образом и называется оперон (единица операции). Часто последовательность расположения генов в опероне совпадает с последовательностью метаболических этапов. Для эукариот соседнее расположение функционально связанных генов не типично, но, хоть такие гены и разбросаны у них по геному, скоординированная регуляция транскрипции есть и эукариот.

На данный момент просеквенировано несколько сотен геномов бактерий и геномы нескольких эукариот. Теперь мы знаем, что у бактерий размеры генома не бывают меньше 0,5 миллионов пар нуклеотидов, а максимальный размер генома около 10 миллионов п.н., у дрожжей (эукариотический организм)– порядка 12 миллионов, у червя нематоды – 97 млн., а у человека – 3 миллиарда пар нуклеотидов. А число генов у про- и эукариот различается уже в меньшее число раз. Минимальное количество генов у бактерии микоплазмы – 470 штук, у дрожжей – 6000, у нематоды – 19000, а у человека около 20000, то есть от нематоды и мухи по количеству генов мы не сильно отличаемся. Количество хромосомной ДНК, приходящейся на один ген у бактерий -1000 п.н. то есть гены упакованы очень плотно; у дрожжей – 2000 п.н., и кое-где гены разделены некоторым пространством; у нематоды – 5000 п.н. на ген и появляются пространства внутри генов – интроны; у человека – 30000 п.н. У нас в геноме большие межгенные пространства и большие пространства внутри генов, которые не переходят в зрелую РНК.

Заметим, все эти организмы по размерам зрелых транскриптов не сильно отличаются. В зрелой РНК белок-кодирующий участок занимает обычно основную часть последовательности. Часть генов кодируют РНК, с которой белок вообще не синтезируется. Перед белок-кодирующей последовательностью в зрелой мРНК расположены участки регуляции трансляции, а после белок кодирующей последовательности – участки определяющие стабильность (время жизни РНК). У прокариот последовательности перед и после белок-кодирующей части гораздо короче, чем у эукариот. Так что по размерам РНК все организмы ближе, чем по размерам генов, а по размерам белков – еще ближе.

Экспериментально проводили «выключение» каждого гена у многих бактерий, и смотрели, выживут они в данных условиях или нет. Оказалось, что у бактерий можно «выключить» (поочередно) около 50% генов, и они все равно будут жить. У дрожжей можно выключить 80% генов и они все равно будут жить.

Как это было экспериментально показано? В геном клетки вставляют репортерный фрагмент ДНК, который позволяет замерить скорость транскрипции и трансляции в точке вставки фрагмента. Известно поэтому, что и траснкрипция и трансляция репортерного гена через данную точку в данных условиях происходит с регуляторных элементов гена, разорванного вставкой репортера, хотя разорванный ген сам не функционален. Таким образом 80% генов дрожжей по одному «убивали» и видели, что клетка дрожжей все равно живет.

У нематоды на 20 000 генов получено несколько десятков тысяч мутаций, которые, по-видимому, поражают около 2 000 генов (так называемых групп комплементации). Это около 10% всех генов нематоды. То есть если «выключить» около 90% генов, клетка будет продолжать жить. У человека из 20 000 генов только в 1700 (меньше 10%) известны мутации, которые связаны с болезнями, наследуемыми по Менделю как моногенный признак.

В связи с этим понятно, что количество генов, мутации в которых будут приводить заболеваниям человека (по крайней мере, к летальным), скорее всего, не увеличится значительно, по сравнению с тем, что уже известно к настоящему времени. Сейчас в интернет доступна база данных OMIM (Online Mendelian Inheritance in Man) по генам, мутации которых приводят к заболеваниям и проявляются как менделирующие признаки.

В геноме не все его участки транскрибируется. В связи с этим встал вопрос экспериментального определения, где и сколько в геноме генов. Под одним геном понимается участок ДНК, который соответствует единому транскрипту, образованному с этого участка. При транскрипции участка ДНК получается так называемыя пре-мРНК, которая содержит и экзоны (участки, переходящие затем в зрелую мРНК), и интроны (вставочные последовательности, которые удаляются из мРНК). Интроны удаляются из пре-мРНК в результате процесса, называемого сплайсингом. Остающиеся в результате участки пре-мРНК, называемые экзонами, соединяются в единую нить. Она называется зрелой мРНК. ( Некоторые из РНК не кодируют белок. Называть такие РНК матричными, т.е. мРНК терминологически не верно, хотя они соответствуют генам и имеют свои функции.)

Зрелая мРНК используется как материал для экспериментального исследования наличия гена в геноме, его положения и интрон-экзонной структуры. Инструментом для такого исследования являются биологические микрочипы.

Первый патент на микрочипы принадлежит коллективу под руководством Андрея Дарьевича Мирзабекова, который был директором Института молекулярной биологии РАН и заведующий одной из кафедр ФМБФ МФТИ. Он предложил иммобилизовать синтетические фрагменты ДНК на твердые матрицы, и проводить гибридизацию этой матрицы с исследуемым образцом нуклеиновой кислоты – ДНК или РНК.

Как исследовать, действительно ли ген существует, то есть транскрибируется ли данный участок ДНК? Для этого ген представляют в чипе частью его последовательности – олигонуклеотидом, который иммобилизован в микроплощадке с определенными координатами на этой матрице. Этот олигонуклеотид соответствует части экзона, предсказанного компьютером на основе сиквенса геномной ДНК. Чтобы выяснить, действительно геном в данном участке транскрибируется, берется клетка и из нее выделяется суммарная РНК. Из всех этих молекул РНК получают ДНК-копии, которые флуоресцентно метят и проводят гибридизацию с иммобилизованными на микрочипе олигонуклеотидами. Если в данных условиях какие-то площадки с олигонуклеотидами «молчат» (они показаны черным), то это значит, что участок геномной последовательности, комплементарной этому олигонуклеотиду, не транскрибируется. Если же площадка матрицы «светится», значит олигонуклеотиды в этой площадке прогибридизовались с флуоресцентно меченым продуктом, то есть соответствующий участок генома транскрибировался и действительно является частью какого-то гена.

В реальном эксперименте все участки на матрице в той или иной мере «светятся». Поэтому без сравнения с некоторым стандартом, нельзя сказать с чем связано появление сигнала в данной площадке чипа. Чтобы определить, является ли полученный результат ошибкой эксперимента или нет, проводится сравнение двух объектов. Для этого берутся некие клетки А, из них получают РНК, и их флуоресцентно метят (на слайде — красным). То же проводят и с клетками В, но метят РНК другим цветом (зеленым). Затем проводят гибридизацию чипа со смесью этих двух препаратов РНК. Если сигнал в данной площадке на чипе получается красным, значит в клетках А транскрипция данного гена сильнее, чем в клетках В. Если сигнал зеленый, то транскрипция сильнее в клетках В. Если красного и зеленого поровну, то получится желтый цвет. Таким образом, возникает возможность сравнивать уровень траснкрипции данного гена в разных клетках — B, C, D и т.д., нормируя его на уровень транскрипции этого гена в клетках А. При этом сравнивают транскрипцию гена в разных тканях, в них гены экспрессируются по-разному. Можно сравнивать опухоль и норму, тогда выявляют те гены, которые специфически более сильно транскрибируются в опухоли или в норме. Можно посмотреть разные стадии развития, как работают гены в зародышевом развитии и во взрослом состоянии. Таким образом, гибридизация на микрочипах позволяет узнать, какие гены в геноме в данных условиях транскрибируются, а именно этим он и проявляет свою жизнь.

Гибридизация на микрочипах позволяет проверить компьютерное предсказание о том, что данный фрагмент генома – экзон, (участок, остающийся в зрелой мРНК) и он действительно транскрибируется. Каждый ген не обязан экспрессироваться во всех тканях и в каждых данных условиях. Поэтому нужно исследовать много условий и тканей, чтобы выявить все участки генома, соответствующие экзонам. На слайде каждая гибридизация на данном чипе соответствует какому-то одному типу ткани или условиям ее функционирования. Красным указано количество экзонов в каждой из хромосом, существование которых экспериментально подтверждено. На каждом чипе 1 090 408 площадок с пробами-олигонуклеотидами, соответствующими каждому из 442 785 экзонов человека, предсказанных компьютером. Олигонуклеотиды в площадках соответствуют как транскрибируемой нити ДНК, так комплементарной нити. В геноме человека транскрипция комплементарных нитей ДНК, характерна для небольшой части генов. Такие гены перекрываются и, возможно, взаимно регулируются на уровне транскрипции. У бактерий перекрывание генов гораздо более частое явление, чем у эукариот.

Котранскрибируемые экзоны (границы гена) выявляются экспериментально на чипе. Соседние площадки содержат олигонуклеотиды, соответствующие экзонам, соседним в геноме. Граница выглядит как переход от блока площадок одного цвета (красного, олигонуклеотиды принадлежащие котранскрибируемым экзонам) к другому (зеленому). Полный список данных по экспериментальному подтверждению существования всех предсказанных компьютером экзонов пока не существует.

Микрочипы могут быть использованы для исследования изменений уровня транскрипции генов, связанной с возникновением или прогрессией заболевания, (например, опухолевого или инфекционного). Предполагается, что каждая болезнь, характеризуется своим штрих-кодом — изменением уровня транскрипции набора генов характерного именно для данной болезни. Этот анализ является очень важным для усовершенствования функциональной диагностики в медицине.

Провели такой опыт. Взяли образцы РНК из опухолей у двух групп больных. В одной группе метастазы были, а в другой – нет. Метастазы – это возникновение новых очагов опухоли в организме, пространственно отделенных от исходного очага. На данном чипе довольно резко проходит граница между группами зеленых и красных площадок. То есть видны гены, изменение уровня экспрессии которых характерно для стадии метастазирования опухоли, что можно использовать для диагностики этой стадии. Пока этот метод диагностики недоработан. Предполагается, что в будущем по штрих-коду изменения экспрессии в определенном наборе генов можно будет диагностировать конкретные заболевания и стадии их развития, а следовательно и знать, как лечить.

Сделаем небольшое отступление. На прошлых лекциях было рассказано про генетические карты. Такие карты были построены для многих видов. На видах с подробными генетическими картами проводится экспериментальный поиск мутаций связанных с регистрируемыми морфологическими изменениями. На слайде показана схема такой работы на рыбах. Вначале проводят мутагенез. После этого получают гибриды первого поколения. Их используют для возвратных скрещиваний с мутагенизированными родителями. Если оказывается, что какой-то признак выявляется, то смотрят, с какими генетическими маркерами он сонаследуется. Таким образом исследуется, какие гены повреждены мутациями, выявляемыми фенотипически.

Обобщая вышесказанное, гены (мутации), определяющие морфологические или биохимические признаки, могут быть идентифицированы после общегеномного мутагенеза (например, EMS) и генетического скрининга. Для этого проводят анализ сонаследования исследуемого аллеля с полиморфными маркерами ДНК, перекрывающими весь геном в известной последовательности, и расстояние между которыми достаточно мало, чтобы отнести исследуемый аллель к одному из интервалов генетической карты.

На этом слайде показано, что существуют бактерии, у которых количество генов может быть больше, чем например у дрожжей. Мы привыкли считать, что бактерии устроены проще, но это не всегда так. Существуют бактерии, у которых генов порядка 10 тысяч.

Даже для прекрасно изученного организма – кишечной палочки, не понятны функции около трети из 4289 ее генов. Известна и последовательность нуклеотидов в этих генах, и как они транскрибируются и т.д., но все равно не известно, какую функцию они выполняют.

На этом слайде хотелось бы обратить ваше внимание на то, что хотя число генов разнится у разных видов, но число так называемых белковых доменов (структурные единицы в белке, отвечающие за единичную функцию) отличаются в пределах разных царств живого (прокариоты и эукариоты) до полутора раз, не более. Конечно комбинации этих доменов разные, но сами домены похожи, то есть они кодируются сходными по последовательности нуклеотидов участками генома и эти сходные участки имеют общее происхождение в эволюции.

Обратно заявление будет не верно. Если функции белков сходны, это не означает, что их структура будет одинакова. Одна и та же функция, например, один и тот же каталитический процесс, может выполняться разными, не родственными по происхождению белками. Один и тот же процесс может катализироваться даже и белком и РНК (рибозим), у которых нет ничего общего в происхождении.

На данном слайде показаны средние значения характеристик различных элементов генов человека. Средний размер экзона — 145 нуклеотидов, интрона – 3365 и т.д. В общей сложности получается, что белок-кодирующая часть гена невелика по сравнению с белок-некодирующей частью, поэтому, когда происходят какие-нибудь мутации, велика вероятность, что промутирует белок-некодирующая часть. Такие мутации или вообще не скажутся на структуре белка, или приведут к изменению его количества, но не структуры (изменения регуляторных участков инициации транскрипции или стабильности РНК), или приведут к драматическим изменениям структуры РНК (мутации в мишенях для сплайсинга).

Общая структура генома такова. Напомню, что размер генома человека 3200 Mb. Гены занимают всего 1200 Мb. Основная часть этого пространства приходится на псевдогены (нефункциональные гены, инактивированные мутациями), различные фрагменты генов и интроны. А на экзоны функциональных генов (суммарная длина зрелых РНК) приходится 48 Мb. Здесь есть некоторое лукавство, так как на одну пре-мРНК в среднем приходится 1,4 зрелых РНК. А из одной зрелой мРНК в некоторых случаях может получиться до тысячи белков. Межгенная ДНК занимает 2000 Мb, она представлена главным образом короткими рассеянными по всему геному повторяющимися последовательностями, которые занимают 1400 Мb. Один из таких повторов – Alu-повтор, длиной около 300 п.н., повторен в геноме миллион раз. Другой примечательный тип рассеянных повторов – длинные концевые повторы (LTR, long terminal repeat). Эти элементы являются молекулярными свидетельствами перескока фрагмента ДНК внутри генома. Общая протяженность таких участков на молекуле ДНК– 250 Мb.

Число генов у человека оценено в 20 — 25 тысяч, (оценка 2001 г. — 35 – 40 тыс.) .

Основная часть генома человека занята не генами: 63-74% длины – межгенные пространства, половина из них – повторы. Ген человека внутри «пустой»: 95% внутригенной ДНК вырезается (интроны). Общая длина белок кодирующих областей около 1% от геномной ДНК человека. Это лишь в 3 раза больше длины генома бактерий.

От 26383 до 39114 генов человека были предсказаны компьютером (в 2001г.), но лишь менее 7000 были подтверждены на человеке. И более, чем для 80% генов, хоть в чем-то была пересмотрена структура в период с 2001 по 2003г и продолжает уточняться на микрочипах.

Сейчас предсказанное число генов у человека 20-25 тысяч и существование около 19 000 из них экспериментально подтверждено – с них образуются транскрипты.

Имеющееся на данный момент определение гена (ген – это фрагмент геномной ДНК с котранскрибируемыми субфрагментами) — не полное. Например, возможна транскрипция с двух цепей. Плохо выявляются короткие гены и белок-некодирующие гены. Их, по крайней мере, под тысячу, но точное число не известно. Такие гены – тоже гены, хоть белок они и не кодируют. Они — гены, потому что с них образуется РНК. Причем РНК некоторых белк-некодирующих генов состоит из нескольких экзонов. То есть, клетке эти РНК зачем-то нужны, но мы пока не понимаем, зачем.

еще рефераты
Еще работы по биологии