WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!

На правах рукописи

Виноградов Александр Евгеньевич

Функциональное значение базовых свойств структуры генома эукариот

03.01.03 - молекулярная биология

Автореферат диссертации на соискание ученой степени доктора биологических наук

Санкт-Петербург 2011

Работа выполнена в Учреждении Российской академии наук Институт цитологии РАН (Санкт-Петербург).

Официальные оппоненты: доктор биологических наук, профессор, академик РАН Колчанов Николай Александрович Институт цитологии и генетики СО РАН, Новосибирск доктор биологических наук, профессор Подгорная Ольга Игоревна Институт цитологии РАН, Санкт-Петербург доктор физико-математических наук, профессор Тимковский Андрей Леонидович Петербургский институт ядерной физики им. Б.П.Константинова

Ведущая организация: Учреждение Российской академии наук, Институт молекулярной биологии РАН, Москва

Защита состоится «_____» ___________ 2011 г. в ____ часов на заседании диссертационного совета Д.002.230.01 при Институте цитологии РАН по адресу:

194964 Санкт-Петербург, Тихорецкий пр., Факс (812) 297-03-Сайт института: http://www.cytspb.rssi.ru Адрес электронной почты института: cellbio@mail.cytspb.rssi.ru

С диссертацией можно ознакомиться в библиотеке Института цитологии РАН Автореферат разослан «____» ____________ 2011 г.

Ученый секретарь Диссертационного совета, кандидат биологических наук Е.В.Каминская

Общая характеристика работы

Актуальность проблемы. За короткое время цитология прошла путь от морфологических и физиологических исследований, проводимых исключительно на клеточном уровне, до клеточной биологии, имеющей дело с данными молекулярного уровня. При этом в какой-то степени потерялась целостность клетки, которая разбилась на множество частных молекулярных явлений, детально изучаемых по отдельности. В настоящее время, после появления различных "омик" (геномики, транскриптомики, протеомики, интерактомики и др.), начался обратный, интеграционный процесс. Возникла молекулярная биология систем, призванная связать "омиксные" данные вместе и представить, как функционирует клетка в целом. В последнее время возрастает также роль эволюционной биологии, которая даже становится базовой наукой для медицины (Nesse et al. 2010).

Одно из главных противоречий, которое возникает при сопоставлении молекулярного уровня с более высокими уровнями биологической организации, это явно адаптивный характер эволюции организмов и доминирование нейтралистских представлений в области молекулярной эволюции. Это является важным противоречием прежде всего потому, что естественный отбор предполагает функциональность, в то время как нейтральная эволюция в основном производит шум, затрудняющий выделение функциональных компонент. Нейтралистские интерпретаторы приходят к выводу, что даже увеличение сложности организмов и геномов (т.н. прогрессивная эволюция) происходит в результате ослабления естественного отбора и является просто следствием мутационного давления (напр., Lynch, Conery 2003; Koonin 2004).

Другими словами, информация, необходимая для повышения уровня биологической организации, должна создаваться из шума без участия естественного отбора.

В нашей работе сделан поиск функциональных объяснений базовых (системных, "омиксных") свойств структуры генома. Это позволит связать данные молекулярного уровня с результатами, полученными при исследовании более высоких уровней биологической организации. Актуальным является и то, что в нашей работе значительное внимание уделяется некодирующей ДНК, которая составляет большую часть генома эукариот и функция которой во многом остается загадочной.

Цель и задачи исследования. Цель работы: на основе полученных новых данных найти возможные функциональные объяснения базовым (системным) свойствам структуры генома эукариот (с акцентом на геном человека), которые интерпретировались в литературе как результат нейтральной эволюции.

Задачи:

1) Изучить вариабельность размера генома и доли ГЦ-пар у наземных позвоночных, найти возможную связь с фенотипическими параметрами, которая предполагала бы адаптивное объяснение этой вариабельности.

2) Изучить особенности внутригеномной вариабельности количества некодирующей ДНК и доли ГЦ-пар, выяснить возможное функциональное значение этих параметров (на примере генома человека).

3) Выяснить связь размера генов (как интронной, так и кодирующей их части) и количества функциональных доменов в кодируемых ими белках с особенностями экспрессии генов (на примере генома человека).

4) Найти возможные признаки прогрессивной эволюции при сравнении транскриптомов человека и мыши.

5) Выяснить роль различных факторов, влияющих на скорость эволюции белоккодирующей ДНК млекопитающих.

Научная новизна. Впервые показана взаимосвязь между размером генома и интенсивностью метаболизма (независимой от размера тела). На основании полученных данных предложено новое объяснение наличия большого количества избыточной (redundant) некодирующей ДНК в геномах эукариот (гипотеза "буферной ДНК").

На основе полученных данных предложено новое объяснение появления изохорной структуры (чередующихся сегментов ГЦ- и АТ-богатой ДНК) геномов теплокровных. Предполагается, что изохорная структура представляет собой один из механизмов регуляции экспрессии генов, опосредуемой конденсацией хроматина. Предложена концепция "геномного дизайна" для объяснения вариабельности размера элементов генома (генов, интронов, межгенных промежутков).

Обнаружено явление усиления клеточной дифференцировки (увеличения экспрессии тканеспецифичных генов) при прогрессивной эволюции. Показано также, что системные факторы доминируют в эволюции белков млекопитающих.

Для решения поставленных задач были разработаны некоторые новые методы и подходы. В частности, это метод проточной цитометрии для одновременного определения размера генома и доли ГЦ-пар. С помощью этого метода впервые исследовано взаимоотношение между размером генома и долей ГЦ-пар у эукариот (позвоночных и моллюсков). На основе проточной цитометрии был также разработан метод измерения степени конденсации хроматина в ядре клетки.

Теоретическая и практическая ценность работы. Полученные в работе данные важны для понимания вариабельности размера генома эукариот и роли большого количества некодирующей ДНК в нем. Они также позволяют объяснить функциональное значение изохорной структуры генома теплокровных (внутригеномной вариабельности доли ГЦ-пар). Предложенная концепция "геномного дизайна" позволяет понять причины вариабельности размера и доли ГЦ-пар внутригеномных объектов (кодирующей и интронной ДНК, межгенных промежутков). Предложено также объяснение возникновения дихотомии общеклеточных и тканеспецифичных элементов генома (генов и модулей клеточных систем, состоящих из групп генов, связанных общей функцией).

Полученные данные помогают лучше понять процесс эволюции. Так, например, обнаруженная более высокая степень специализации клеток человека по сравнению с клетками мыши проливает свет на молекулярные и клеточные механизмы прогрессивной эволюции. Выявление того факта, что системные факторы доминируют в эволюции белков млекопитающих, позволяет лучше понять процесс молекулярной эволюции и его связь с эволюцией клеточных систем.

Результаты измерения размеров генома 181 вида животных включены в Animal Genome Size Database (http://genomesize.com), со ссылками на наши статьи. Полученные в работе данные используются в Wikipedia (http://de.wikipedia.org/wiki/Genom; http://en.wikipedia.org/wiki/GC-content) и New World Encyclopedia (http://www.newworldencyclopedia.org/entry/Cytosine).

Некоторые материалы работы используются в учебном процессе в СПбГУ (на кафедре цитологии и гистологии).

Положения, выносимые на защиту 1) Вариабельность размера генома эукариот и содержания ГЦ-пар в нем имеет функциональное (адаптивное) значение. Увеличение размера генома связано со снижением интенсивности метаболизма (независимого от размера тела), что дает преимущество в экологических нишах с низкими энергетическими ресурсами. Повышение доли ГЦ-пар связано с деконденсацией хроматина и увеличением размера ядра. Птицы и рептилии, имеющие большую долю ГЦпар в геноме по сравнению с амфибиями и млекопитающими, имеют отдельную линию регрессии интенсивности метаболизма на размер генома.

2) Возникновение ГЦ-богатых изохор в геноме теплокровных связано с активацией транскрипции в этих участках генома в результате деконденсации хроматина, которую вызывает повышение содержания ГЦ-пар. Таким образом, внутригеномная вариабельность доли ГЦ-пар связана с регуляцией экспрессии генов, опосредуемой конденсацией хроматина.

3) Гены человека с промежуточной межтканевой широтой экспрессии (т.е. не тканеспецифичные и не общеклеточные) имеют наибольший размер (как интронной, так и кодирующей части), а кодируемые ими белки содержат наибольшее число функциональных доменов. Эти гены имеют наибольшую функциональную сложность на всех исследованных уровнях: в сетях белковых взаимодействий, биохимических путях, модулях, описываемых категориями Gene Ontology, группах генов, регулируемых определенными транскрипционными факторами, группах генов, кодирующих определенные функциональные белковые домены, группах "слов" аминокислотных последовательностей кодируемых белков и нуклеотидных последовательностей интронов и промоторных участков. На уровне модулей клеточных систем (т.е. групп генов, связанных общей функцией) дихотомия общеклеточных и тканеспецифичных объектов выражена сильнее, чем на уровне отдельных генов. Предполагается, что именно сложность регуляции генов и функциональных модулей с промежуточной широтой экспрессии и привела к возникновению дихотомии общеклеточных и тканеспецифичных генов и модулей.

4) Для одного и того же набора ортологичных генов и гомологичных тканей у человека больше доля тканеспецифичных генов и более высокое отношение экспрессии тканеспецифичных генов к экспрессии общеклеточных генов, чем у мыши. Гены, которые изменили межтканевую широту экспрессии, показывают также большую эволюционную дивергенцию нуклеотидной последовательности промоторных участков и аминокислотной последовательности кодируемых белков. Эти молекулярные данные показывают, что повышение уровня биологической организации связано с более высокой степенью специализации (дифференцировки) клеток.

5) Скорость эволюции ко-экспрессированных генов, белков-интерактантов и белков, принадлежащих к одному и тому же биохимическому пути, является наиболее важным фактором, определяющим скорость эволюции белков млекопитающих. Другим важным фактором является сложность регуляции кодирующего белок гена. Белки, кодируемые более сложно-регулируемыми генами, эволюционируют медленней. Эти данные показывают, что системные факторы доминируют в эволюции белок-кодирующей ДНК млекопитающих.

Апробация работы. Материалы диссертации были доложены на отчетных конференциях программы Президиума РАН "Молекулярная и клеточная биология" (Москва 2005, 2007) и заседании Ученого совета Института цитологии РАН (2005). Работа была поддержана 5 грантами РФФИ (1996-2010, руководитель) и грантом программы Президиума РАН "Молекулярная и клеточная биология" (2004-2008, руководитель).

Суммарный журнальный импакт-фактор опубликованных по материалам диссертации статей - более 160 (не считая заметки в Science), их суммарное цитирование в ISI Web of Knowledge Citation Index - более 900, в Google Scholar - более 1100. (См. также http://expertcorps.ru/science/whoiswho/ci86).

Многие результаты диссертации уже подтверждены независимыми исследованиями (ссылки приведены в соответствующих местах основного текста автореферата).

Публикации. По материалам диссертации опубликовано 33 статьи в рецензируемых журналах (31 работа выполнена без соавторов, а остальные 2 - с одним соавтором). Из них, 32 статьи опубликованы в международных журналах, входящих в ISI Web of Knowledge Citation Index, и 1 обзор - в российском журнале, входящем в список ВАК. Средний журнальный импакт-фактор всех статей диссертации - 5.2 (не считая Science). Среди международных - такие журналы как Genome Reseach (1 статья), Trends in Genetics (4 статьи), Current Opinion in Genetics & Development (обзор по приглашению редакции), Molecular Biology and Evolution (1 статья), Nucleic Acids Reseach (5 статей), Evolution (статьи), Chromosoma (1 статья), P Roy Soc B-Biol Sci (3 статьи), J Mol Evol (статьи), Cytometry (4 статьи). Все работы выполнены в Институте цитологии РАН. Ни одна из статей не входила в кандидатскую диссертацию.

Структура диссертации. Диссертация состоит из Введения, Обзора литературы, Материалов и методов исследования, Результатов и обсуждения (включающих четыре главы), Выводов и Списка цитируемой литературы.

Материалы и методы Данная работа начиналась как измерение размера и ГЦ-состава генома (а также степени конденсации хроматина) методами проточной цитометрии, а затем была продолжена с помощью методов молекулярной биоинформатики (в "омиксном" масштабе данных, т.е. фактически совмещающем молекулярный и клеточный уровень).

Проточная цитометрия. Разработанный нами вариант метода проточной цитометрии для одновременного определения размера генома и доли ГЦ-пар в нем включает в себя окрашивание ядер клеток двумя базоспецифичными флуорохромами (Vinogradov 1994, 1998a, 2000, 2005a). Использовались ГЦспецифичный оливомицин и АТ-специфичный Хехст 33258. Для измерения брали клетки крови позвоночных (кроме млекопитающих), клетки селезенки и тимуса млекопитающих и клетки печени моллюсков. В качестве репера использовали клетки крови лягушки Rana temporaria. Для определения размера генома и доли ГЦ-пар по результатам измерения флуоресценции двух базоспецифичных флуорохромов использовали уравнение регрессии отношения доли АТ-пар к доле ГЦ-пар на отношение интенсивностей флуоресценции Хехст/оливомицин. Доля ГЦ-пар для калибровочного уравнения регрессии была взята из литературы (для совпадающих видов животных). На основании этого уравнения (полученного аппроксимацией с помощью метода наименьших квадратов) определяли долю ГЦ-пар по отношению интенсивностей флуоресценции Хехст/оливомицин. Затем определяли размер генома тестируемого вида по отношению к размеру генома репера.

Разработанный нами вариант метода проточной цитометрии для определения степени мембрано-зависимой конденсации хроматина включает в себя фиксацию формальдегидом и окрашивание ДНК-специфичным флуорохромом (Vinogradov 1995b, 2005a). Эффект основан на том, что формальдегид фиксирует состояние хроматина. В качестве репера использовали пробы тех же клеток, но предобработанных низкой концентрацией неионного детергента (т.е. с поврежденной мембраной). Эксперименты проводили с тимоцитами млекопитающих и клетками крови других позвоночных. Отношение интенсивности флуоресценции клеток, предобработанных детергентом, к флуоресценции непредобработанных клеток использовалось как индикатор степени мембрано-зависимой конденсации хроматина.

Бионформатика. В ранних работах (Vinogradov 2001c,d) геномные последовательности были извлечены из базы GenBank (Sayers et al. 2010). В более поздних работах использовалась база RefSeq (Sayers et al. 2010). Границы генов, интронов и экзонов были взяты из аннотаций. Транспозоны в интронах и межгенных промежутках были определены с помощью программы RepeatMasker. При этом использовались библиотеки траспозонных последовательностей, взятые из базы Repbase (Jurka et al. 2005). Уровень дивергенции (т.е. процент нуклеотидных замен) по отношению к консенсусной последовательности каждого семейства (ретро)транспозонов также был определен с помощью программы RepeatMasker. Гомология (ортология) между генами человека и мыши была установлена с помощью базы HomoloGene (Sayers et al. 2010). В поздних работах ортология определялась с помощью тотального сравнения всех известных белок-кодирующих генов человека со всеми известными генами мыши (на уровне аминокислотной последовательности самого длинного белка, кодируемого данным геном) с помощью алгоритма Смита-Ватермана, имплементированного в пакете Fasta (программа ssearch).

Отбирали пары генов с наиболее высокой статистической значимостью взаимного соответствия (reciprocal best hits).

Гибкость (bendability) и кривизна (curvature) молекулы ДНК были определены на основании таблиц этих параметров для тринуклеотидов биспирали ДНК (Gabrielian, Pongor 1996; Munteanu et al. 1998). Это консенсусные значения данных параметров, полученные на основании результатов экспериментов с перевариванием ДНКазой I и позиционированием последовательности ДНК в нуклеосомах (т.е. взаимодействием ДНК с гистонами). Гибкость была подсчитана для движущейся рамки размером 3 п.н. (с шагом в 1 п.н.) и усреднена для каждой изучаемой последовательности ДНК (экзона, интрона, межгенного промежутка, транспозона). Кривизна - это относительно макроскопический изгиб ДНК, который возникает в результате суммации локальных изгибов с учетом фазы биспирали ДНК. Ее обычно подсчитывают для сегментов ДНК различной длины, но кратной числу оборотов биспирали ДНК (Gabrielian, Pongor 1996). В нашей работе были исследованы сегменты ДНК различной длины (1-3 оборота биспирали), результаты для них существенно не различались. Поэтому основные данные представлены с использованием кратчайшего сегмента ДНК (1 оборот, 10.5 п.н.) для того, чтобы минимизировать возможные краевые эффекты для коротких последовательностей ДНК. Таким образом, кривизна была определена для движущейся рамки размером 10.5 п.н. (с шагом в 1 п.н.) и усреднена для каждой изучаемой последовательности.

Термостабильность была определена на основании консенсусной таблицы значений свободной энергии плавления биспирали ДНК (delta G) для динуклеотидов, составленной по результатам многочисленных физических экспериментов (SantaLucia 1998). Способность биспирали ДНК к B-Z переходу определялась с использованием таблицы свободной энергии B-Z перехода для динуклеотидов (Lafontaine, Lavery 2000). Термостабильность и способность к BZ переходу были подсчитаны для движущейся рамки размером 2 п.н. (с шагом в 1 п.н.) и усреднены для каждой последовательности ДНК.

Для каждой изучаемой последовательности ДНК было также сделано по 10 рандомизаций последовательности оснований, и для них были посчитаны все изучаемые параметры (гибкость, кривизна, термостабильность и способность к B-Z переходу). Результаты подсчетов для 10 рандомизаций были усреднены. Для каждой кодирующей последовательности, для всех синонимных позиций, которые могли быть пермутированы с сохранением того же процента ГЦ-пар (т.е. Г<->Ц и А<->Т замены), были сделаны 10 случайных пермутаций с сохранением того же среднего содержания пуринов для всего набора синонимных позиций. Изучаемые параметры, посчитанные для пермутированных последовательностей, были усреднены. Относительные значения каждого изучаемого параметра физических свойств ДНК были определены для каждой последовательности как разница между значением данного параметра для исходной (геномной) последовательности и средним значением параметра для 10 ее рандомизированных или пермутированных последовательностей.

Потенциал образования нуклеосом был определен с помощью метода, разработанного в лаборатории акад. Н.А.Колчанова (Levitsky et al. 2001a, 2001b;

Levitsky 2004). Потенциал образования нуклеосом был усреднен для каждой изучаемой последовательности ДНК.

Данные по уровню экспрессии генов в различных тканях человека и мыши были взяты из базы SymAtlas/Gene Expression Atlas (Su et al. 2004) и базы по экзонным микроэрреям (Xing et al. 2007). В некоторых работах использовались также библиотеки ESTs (expressed sequence tags) из базы Unigene (Sayers et al. 2010). Данные о принадлежности генов к тому или иному биохимическому пути были взяты из баз Kegg и Reactome (Croft et al. 2011;

Kanehisa et al. 2008), а данные о категориях Gene Ontology - из одноименной базы (Gene Ontology Consortium 2010). Для получения данных о транскрипционных факторах и регуляторых микро-РНК была использована база Molecular Signatures Database (Subramanian et al. 2007). Данные о белковых взаимодействия были взяты из базы STRING (Jensen et al. 2009). Для получения данных о точных сайтах начала транскрипции была использована база DBTSS (Wakaguri et al.

2008). Данные о доменной архитектуре белков были взяты из баз Pfam и InterPro (Hunter et al. 2009).

Анализ количества и степени сходства эволюционно-консервативных участков в ортологичных интронах человека и мыши был сделан с использованием высокочувствительного алгоритма Хуанг-Миллера для локального выравнивания (alignment) нуклеотидных последовательностей, имплементированного в пакете Fasta (программа lalign). Перед анализом из интронов с помощью программ RepeatMasker и DateRepeats были убраны мобильные элементы, специфичные для человека или мыши. После получения всех возможных локальных выравниваний для каждой пары ортологичных интронов мы отбирали наиболее длинную цепь непересекающихся локальных выравниваний. Для контроля делались аналогичные выравнивания рандомизированных интронных последовательностей (в них суммарная доля выровненных участков не превышала 0.5%).

Эволюционные дистанции белок-кодирующей ДНК при сравнении человека и мыши были определены с помощью глобального выравнивания ортологичных аминокислотных последовательностей с помощью программы ClustalW. (Ортологичные пары белков устанавливали с помощью программы ssearch из пакета Fasta, как сказано выше.) В дополнительных анализах эти дистанции были определены по отношению скоростей несинонимных замен к синонимным (dN/dS) с помощью программы PAML. Выравнивание нуклеотидных последовательностей, необходимое для этой программы, делалось с помощью программы RevTrans с использованием белковых выравниваний, сделанных программой ClustalW, в качестве направляющих. Определение этапа эволюционного происхождения генов было основано на сравнении групп ортологичных генов (COG/KOG/ NOG), представленных в базе STRING (Jensen et al. 2009) и филогенетического дерева из базы NCBI (Sayers et al. 2010). В соответствии с этим деревом было взято 12 эволюционных стадий (cellular organisms, Eukaryota, Fungi/Metazoa group, Bilateria, Coelomata, Chordata, Vertebrata, Tetrapoda, Amniota, Mammalia, Eutheria, Primates или Rodentia). Ген считался появившимся на той или иной стадии, если он имел ортологи в филогенетических линиях, ответвившихся от изучаемой линии на данной стадии, и не имел в ответвившихся раньше.

Обогащенность групп генов категориями Gene Ontology (отдельно для биологических процессов, молекулярных функций и клеточных компонент) и биохимическими путями устанавливали с помощью гипергеометрического распределения плотности вероятности на основании частот генов, принадлежащих к этим категориям и путям, в тестируемой группе генов и в полном наборе данных. В случае категорий Gene Ontology рассматривали все вложенные субкатегории различных иерархических уровней. С этой целью мы собирали для каждой категории все ее субкатегории (используя направленный ациклический граф, описывающий структуру данной базы). Ген относили к какой-либо категории в том случае, если он входил в любую из субкатегорий данной категории или непосредственно в данную категорию. После определения уровней статистической значимости (р) в них вводили поправку на множественность сравнений по методу Storey, Tibshirani (2003).

Результаты исследований и их обсуждение Размер генома, доля ГЦ-пар и конденсация хроматина Роль некодирующей ДНК, которая составляет более 98% генома человека (Venter et al. 2001), остается неясной. Нейтралистское объяснение предполагает, что мутационное давление приводит к накоплению избыточной (redundant) некодирующей ДНК в геномах эукариот, просто "терпимому" (permissive) естественным отбором (обзор: Vinogradov 2004c). Поскольку размер генома многоклеточных определяется в основном количеством некодирующей ДНК, эта часть работы была посвящена изучению вариабельности размера генома и поиску ее фенотипических коррелят.

Был разработан специальный метод проточной цитометрии для одновременного определения размера генома и доли ГЦ-пар в нем (Vinogradov 1994, 1998a, 2005). С помощью этого метода исследовано взаимоотношение между размером генома и долей ГЦ-пар у позвоночных животных (исследован 161 вид, принадлежащий к 23 отрядам, входящих в 6 классов). Обнаружено, что в целом у позвоночных наблюдается положительная корреляция между размером генома и долей ГЦ-пар. При этом, птицы и рептилии имеют относительно более высокую долю ГЦ-пар (для своих размеров генома) по сравнению с млекопитающими и амфибиями (рис. 1).

Обнаружена отрицательная зависимость между размером Caudata 46 генома и интенсивностью метаболизма (независимой от размера тела, т.е. после Reptilia исключения эффекта размера тела) Aves Anura у млекопитающих и птиц (Vinogradov 1995a, 1997). В Mammalia дальнейшем наши результаты были подтверждены и расширены Teleostei другими авторами (Gregory 2002;

Kozlowski et al. 2003; Redi et al.

110 12007; Gregory et al. 2009).

Размер генома (2с, пкг) В результате была Рис 1. Размер генома и доля ГЦ-пар у позвоночных.

сформулирована концепция о независимом влиянии размера тела и размера генома на интенсивность метаболизма животных. Обнаруженный эффект указывает на возможное адаптивное (экофизиологическое) значение некодирующей ДНК. Она может служить для снижения уровня метаболизма, что позволяет животным занимать экологические ниши с более низкими энергетическими ресурсами. Для этой новой области исследований нами был предложен термин "экофизиологическая цитогенетика", который (с подтверждением и дальнейшим развитием наших результатов) был принят и 0.другими авторами (Kozlowski et al.

2003).

0.В дальнейшем нами была показана универсальность связи -0.между размером генома и интенсивностью метаболизма у -0.всех наземных позвоночных (рис.

2) (Vinogradov, Anatskaya 2006).

-0.Зависимость между размером генома и интенсивностью 3.0 3.5 4.0 4.5 5.метаболизма наблюдалась прежде Размер генома (lg, Mb) только у гомойотермных. При Рис 2. Зависимость между интенсивностью метаэтом были обнаружены две линии болизма (оцениваемой по индексу сердца) и регрессии, одна для размером генома у наземных позвоночных. Видно, что рептилии (зеленые квадратики) лежат на млекопитающих, другая для птиц продолжении линии птиц (красные кружки), а (Vinogradov 1995a). У пойкилоамфибии (коричневые квадратики) - на продолтермных эту связь обнаружить не жении линии млекопитающих (синие кружки).

Содержание ГЦ-пар (%) Индекс сердца (lg, %) удавалось, по-видимому, вследствие сильной зависимости интенсивности метаболизма от температуры и адаптированности разных видов к разным температурам (Vinogradov 1999a). Это ставило под сомнение возможность перенесения закономерности, наблюдаемой у гомойотермных, на пойкилотермных животных. В данной работе мы использовали индекс (относительный вес) сердца в качестве универсального индикатора интенсивности метаболизма для гомойотермных и пойкилотермных животных и обнаружили, что отрицательная зависимость между размером генома и интенсивностью метаболизма имеется у всех наземных позвоночных (рис. 2).

(Относительный вес сердца - это признанный показатель интенсивности метаблизма; напр., Dawson et al. 2003; Bishop 2005.) Было установлено также, что регрессия интенсивности метаболизма на размер генома у наземных позвоночных распадается на две линии: в первой (имеющей более крутой наклон) - точки для рептилий ложатся на продолжение линии для птиц, во второй - точки для амфибий ложатся на продолжение линии для млекопитающих (рис. 2). При этом нужно отметить, что птицы и рептилии имеют относительно более высокую долю ГЦ-пар в геноме, чем млекопитающие и амфибии (рис. 1).

Мы обнаружили, что в секвенированных геномах Рис. 3. Зависимость потенциала формирования позвоночных наблюдается нуклеосом от доли ГЦ-пар в геномах позвоночных отрицательная корреляция (зеленый - Homo sapiens; желтый - Mus musculus, между долей ГЦ-пар и синий - Gallus gallus, красный - Xenopus tropicalis, потенциалом формирования коричневый - Danio rerio, фиолетовый - Tetraodon нуклеосом (рис. 3). Кроме того, nigrovidis). Для каждого вида, потенциал формиробыло установлено, что при вания нуклеосом и доля ГЦ-пар были определены для 10000 сегментов генома длиной 10000 п.н. каждый, равном размере генома размер извлеченных из генома случайным образом.

ядра эритроцитов больше у видов с более ГЦ-богатым геномом (Vinogradov, Anatskaya 2006). Мы предполагаем, что более рыхлая конденсация хроматина и относительно больший (для своего размера генома) размер ядер у птиц-рептилий по сравнению с млекопитающими-амфибиями и объясняют появление двух разных линий регрессии между размером генома и интенсивностью метаболизма (рис.

2).

Таким образом, эта работа позволяет объединить данные по размеру и ГЦсоставу генома, размеру ядер и интенсивности метаболизма в единую картину.

Нужно также подчеркнуть, что млекопитающие, несмотря на более высокий уровень организации, сохранили связь между размером генома и интенсивностью метаболизма, сходную с амфибиями. В то же время, в филогенетической линии рептилии-птицы эта зависимость стала более сильной (линия регрессии имеет больший угол наклона). Следует отметить, что согласно палеонтологическим данным, млекопитающие произошли от самого основания филогенетической линии рептилий и поэтому не являются родственниками современных рептилий (Rubidge, Sidor 2001; Ruta et al. 2003). Птицы ближе к современным рептилиям, чем млекопитающие. Таким образом, наши результаты не противоречат филогенетическим представлениям, а скорее подтверждают их.

Эти результаты уже используются и в палеонтологических работах (Organ et al.

2009).

Определен размер генома и доля ГЦ-пар у некоторых водных и наземных моллюсков (Vinogradov 1998b, 2000). При филогенетически корректном сравнении внутри отряда легочных моллюсков Pulmonata (имеющих как водные, так и наземные виды) было обнаружено, что у наземных видов геном больше, чем у водных (рис.

4). Этот факт может служить 34 примером эволюционного параллелизма с филогенетической 2 3 4 5 6 7 линией позвоночных, у которых Размер генома (2c, пкг) при выходе на сушу (амфибии и Рис 4. Размер генома и доля ГЦ-пар у легочных двоякодышащие рыбы) также моллюсков (Pulmonata). Синие квадратики - увеличивается размер генома. Доля водные, красные кружки - наземные.

ГЦ-пар в геноме тоже увеличивается в обоих случаях. Полученные данные противоречат предположению о случайном характере увеличения размера генома при эволюционном выходе животных на сушу и указывают на экофизиологическую роль некодирующей ДНК.

С помощью разработанного нами варианта метода проточной цитометрии был обнаружен эффект мембрано-зависимой конденсации хроматина (Vinogradov 1995b). В частности, было показано что в течение нескольких секунд после поврежедения клеточной мембраны с помощью неионного детергента в физиологическом растворе происходит быстрая деконденсация хроматина. Дополнительно это явление было подтверждено измерением доступности ДНК к действию ДНКазы I. Экспериментально показано, что примерно половина этой мембрано-зависимой конденсации хроматина может быть объяснена более низкими внутриклеточным pH по сравнению с внеклеточным. Механизм остальной части конденсации остается пока неясным.

Было установлено, что влияние дивалентных катионов и низкомолекулярных анионов может быть исключено. Вскоре этот эффект был подтвержден другими авторами, применившими несколько иной вариант метода (Loborg, Rundquist 1997).

Содержание ГЦ-пар (%) Была предложена концепция "буферной ДНК", объясняющая присутствие избыточной (redundant) некодирующей ДНК в геноме эукариот (Vinogradov 1998c). Предполагается, что некодирующая ДНК в конденсированном виде в составе гетерохроматина может предохранять структуру хроматина от изменений, вызванных колебаниями физических и химических параметров внутриклеточной среды, а в деконденсированном виде - ослаблять влияние таких колебаний на специфическое связывание ДНК-тропных белков.

Экспериментальным основанием для этой гипотезы послужили два типа данных.

Во-первых, известно, что у прокариот неспецифическое связывание РНКполимеразы ослабляет действие повышенной концентрации солей и делает возможной транскрипцию даже тогда, когда внутриклеточная концентрация солей в несколько раз превышает концентрацию, при которой транскрипция прекращается in vitro (Richey et al. 1987). Во-вторых, это наши данные об изменении конденсации хроматина в клетках эукариот при изменении концентрации ионов в окружающей клетку среде (Vinogradov 1995b). Согласно гипотезе "буферной ДНК", избыточная ДНК выступает в качестве структуры, обеспечивающей пассивный (энерго-независимый) гомеостаз, снижая тем самым требования к механизмам активного гомеостаза.

В то же время, увеличение буферной емкости ДНК увеличивает инерцию генетического аппарата, замедляя все связанные с его работой процессы (в том числе, рост и развитие организмов). Накопление и сохранение больших количеств избыточной ДНК в геноме может поддерживаться отбором в экологических нишах с низкими энергетическими ресурсами или при неблагоприятных физических условиях, не позволяющих полностью использовать эти ресурсы. Так, например, размер генома увеличивается при эволюционном выходе животных на сушу (амфибии, двоякодышащие рыбы и наземные легочные моллюски), что может быть связано с необходимостью ослабления влияния резких колебаний физических параметров среды на суше (в первую очередь, влажности). У амниот эти колебания блокируются с помощью системных механизмов организменного уровня, таких как зародышевые оболочки и кожные покровы. Поэтому размер генома и его вариабельность у них уменьшаются.

Однако при быстром изменении климата и нарушении биоценозов в результате антропогенного воздействия (как это происходит в настоящее время), виды с большой инерцией генетического аппарата (и соответственно, длительным ростом и развитием) могут не успевать адаптироваться и поэтому имеют повышенную вероятность вымирания (Vinogradov 2003a, 2004b).

Интересно, что связь между размером генома и вероятностью вымирания выражена в различной степени для птиц-рептилий и млекопитающих-амфибий (у первых она значительна, у вторых - практически отсутствует). Птицы и рептилии имеют больший угол наклона линии регрессии интенсивности метаболизма на размер генома (рис. 2), что свидетельствует о том, что изменение размера генома для них более критично.

С помощью разработанного нами метода измерения степени мембранозависимой конденсации хроматина получены новые экспериментальные данные, подтверждающие гипотезу "буферной ДНК" (Vinogradov 2005a). Показано, что у близких видов амфибий, различающихся размером генома, конденсация хроматина в клетках с большим размером генома более устойчива к вариации концентрации солей окружающей среды. Деконденсация хроматина в этом случае имеет меньший масштаб и больший временной лаг. Интересно отметить, что cпособность ДНК регулировать необходимую концентрацию ДНК-тропных белков уже используется для разработки методов исследования ДНКгистоновых взаимодействий in vitro (Poirier et al. 2008). Авторы так и называют добавляемую ими избыточную ДНК - "гистоновый буфер" (histone buffer).

Понятно, что чем больше ДНК в геноме, тем больше должна быть буферная емкость генома для ДНК-тропных белков.

Размер внутригеномных элементов Было оценено соотношение количеств меж- и внутригенной некодирующей ДНК в геномах различных организмов (Vinogradov 1999c). Показано, что в широком эволюционном диапазоне изменение этих количеств происходит скоординировано. Проведен поиск возможных взаимосвязей в эволюции кодирующей и некодирующей ДНК (Vinogradov 2001b). В качестве некодирующей ДНК была выбрана ее внутригенная форма - интроны.

Обнаружена связь между размером интронов и степенью неравномерности использования различных синонимных кодонов в кодирующей ДНК данного гена (которая, как известно, часто связана с уровнем экспрессии гена, т.к. в активно экспрессируемых генах оптимальные для транскрипции кодоны используются чаще своих синонимов). У многоклеточных организмов эта корреляция отрицательна, а у одноклеточных - положительна. Наиболее сильно она выражена у дрожжей S.cerevisiae, для которых нами было также прямо показано, что размер интронов положительно коррелирует с уровнем экспрессии содержащих их генов (рис. 5).

Отрицательная корреляция между размером интронов и степенью неравномерности использования синонимных кодонов, обнаруженная у многоклеточных организмов, может объясняться появлением у них новых типов регуляции генов, которая осуществляется с помощью сильной конденсации хроматина, -необходимой для долговременного 2.0 2.5 3.отключения значительной части Размер интронов (lg, bp) генов. Известно, например, что в Рис. 5. Зависимость между интенсивностью клетках млекопитающих степень транскрипции и длиной интронов в генах дрожжей S. cerevisiae.

конденсации хроматина примерно в пять раз выше, чем у дрожжей (Russell, Nurse 1986). В этом случае длинные Интенсивность транскрипции (lg) интроны могут быть необходимы для обеспечения сильной конденсации хроматина в генах с низким уровнем экспрессии.

Несколько лет назад в ведущих международных журналах почти одновременно были опубликованы три работы, в которых было показано, что активно и широко экспрессируемые гены человека короче, чем тканеспецифичные гены - как в кодирующей, так и в интронной последовательности (Castillo-Davis et al. 2002; Eisenberg, Levanon 2003; Urrutia, Hurst 2003). Поскольку транскрипция и трансляция энергетически затратны, это явление было интерпретировано как результат отбора на экономичность в активно-экспрессируемых генах и мутационного давления, увеличивающего размер слабо-экспрессируемых генов. Это объяснение подразумевает отсутствие связи между размером гена и его функциональной нагрузкой. Фактически, оно аналогично "пермиссивной" интерпретации вариабельности размера генома, т.к.

предполагает, что избыточная ДНК просто "терпима" в генах с низким уровнем экспрессии. Оно противоречит нашим данным о том, что у дрожжей более интенсивно экспрессируемые гены имеют более длинные интроны (рис. 5).

Нами было показано, что в геноме человека и других многоклеточных организмов (нематоды и дрозофилы) длина межгенного спейсера снижается при увеличении уровня и межтканевой широты экспрессии гена пропорционально снижению длины интронов (Vinogradov 2004d). Это не может быть объяснено отбором на экономичность, так как межгенный спейсер не транскрибируется.

Было обнаружено также, что корреляция между средним уровнем экспрессии и ее межтканевой широтой (т.е. числом тканей, где экспрессируется данный ген) очень высока (r>0.95; Vinogradov 2004d, 2005c). Кроме того, мы показали, что количество функциональных доменов (в том числе, уникальных доменов) в белке увеличивается при снижении уровня и межтканевой широты экспрессии кодирующего данный белок гена. Эти факты позволяют предположить, что увеличение длины тканеспецифических генов в некодирующей их части связано с опосредованным конденсацией хроматина подавлением транскрипции в тех тканях, где эти гены не должны экспрессироваться, а в кодирующей части - с тканевой специализацией и более сложной функциональной архитектурой кодируемых белков.

Эта интерпретация, условно названная "геномным дизайном", была предложена как альтернатива концепции отбора на экономичность (Vinogradov 2004d). Уже на следующий год наши результаты были подтверждены в отношении как белков, так и некодирующей ДНК (Cohen-Gihon et al. 2005; Sironi et al. 2005). Авторами был сделан вывод, что полученные новые данные "сильно подтверждают" концепцию "геномного дизайна" (Sironi et al. 2005).

Был проведен анализ количества и степени сходства эволюционноконсервативных участков в ортологичных интронах человека и мыши с использованием высокочувствительного локального алгоритма выравнивания нуклеотидных последовательностей (Vinogradov 2006a). Установлено, что доля консервативных участков очень высока (60-70% длины интрона, не занятой мобильными элементами, специфичными для человека или мыши). При этом она выше в более длинных интронах тканеспецифичных генов (по сравнению с общеклеточными). Это различие остается после коррекции по следующим параметрам: степени сходства консервативных участков, уровня мутационного давления (определенного с помощью сравнения мобильных элементов, расположенных в интронах, с их консенсусными, т.е. предположительно исходными, копиями), и доли ГЦ-пар. Установлено, что ни доля интронов, занятая мобильными элементами, ни баланс инсерций и делеций в них (который является оценкой уровня и направления мутационного давления, действующего на интрон) не могут объяснить увеличение длины интронов тканеспецифичных генов. Интересно отметить, что распределения длин консервативных и неконсервативных участков интронов очень широкие, но имеют максимумы, близкие к длинам нуклеосомной и динуклеосомной ДНК. Кроме того, потенциал формирования нуклеосом выше в консервативных участках.

Обнаружено также,что длина 0.0.консервативных участков интронов 0.0.коррелирует с числом функцио0.0.нальных доменов в кодируемом данным геном белке. Полученные 0.0.данные позволяют предположить, 0.0.что длина интронов (как и 0.0.кодирующих последовательностей) определяется их функциональной 0 8 16 24 32 40 48 56 64 0 8 16 24 32 40 48 56 64 нагрузкой.

Количество тканей Количество тканей В дальнейшем концепция Рис. 6. Информация (неопределенность выбора) "геномного дизайна" была дополнена при включении/выключении генов, и несколько модифицирована. С экспрессированных в различном количестве тканей, согласно формуле Шеннона (-p*log2p). точки зрения теории информации, Вероятность (p) определена как отношение наиболее сложной должна быть числа тканей, где экспрессируется данный ген, регуляция генов с промежуточной к общему числу тканей.

широтой экспрессии, а не узкотканеспецифичных (поскольку именно для генов с промежуточной широтой экспрессии имеется наибольшая неопределенность выбора при 4.4.4.4.включении/выключении гена) (рис.

6) (Vinogradov 2006b).

4.4.4.4.При более подробном анализе 4.4.4.4.(с использованием новых, более 4.4.4.4.полных данных) было обнаружено, что гены человека с промежуточной 4.4.4.4.широтой экспрессии имеют 4.4.4.4.наибольший размер как интронной, 4.4.4.4.так и кодирующей части, а 0-5 6-18 19-37 38-54 55-66 67-71 0-5 6-18 19-37 38-54 55-66 67-71 0-5 6-18 19-37 38-54 55-66 67-71 0-5 6-18 19-37 38-54 55-66 67-71 кодируемые ими белки содержат Количество тканей Количество тканей Number of tissues Number of tissues Рис 7. Длина интронной последовательности наибольшее число различных генов человека, экспрессированых в различном функциональных доменов (рис. 7).

количестве тканей (0-72).

(При этом общеклеточные гены попрежнему оказались короче, чем тканеспецифичные, так что этот результат не Информация (бит) Информация (бит) Intronic sequence length (bp, log) Intronic sequence length (bp, log) Длина интронной последовательности (lg, bp) Длина интронной последовательности (lg, bp) противоречит предыдущим данным.) Гипотеза отбора на экономичность не предсказывает такой колоколообразной зависимости.

Рис. 8. Распределение частот 6нуклеотидных "слов" 2-буквенного (пурин/пиримидин) алфавита в интронах генов человека, экспрессированых в различном количестве тканей (0-72).

0-5 6-18 19-37 38-Относительные частоты "слов" отложены в виде лучей (star plot) в одном и том же порядке для групп генов, различающихся межтканевой широтой экспрессии. Видно, что у генов, экспрессированных в промежуточном числе тканей (38-71), 55-66 67-71 72 наибольшее разнообразие "слов". В генах, экспрессированных в крайних числах тканей (т.е. тканеспецифичных или общеклеточных), некоторых слов нет вообще (пустые сектора в графиках). Пурин-пиримидиновый алфавит выявляет более эволюционноконсервативные особенности последовательности ДНК (по сравнению с полным 4буквенным). В частности, убран эффект вариабельности доли ГЦ-пар (который рассмотрен в следующем разделе).

Был также разработан метод оценки шенноновской информации внутригеномных объектов в геномном контексте (Vinogradov 2006b). С помощью данного метода было установлено, что гены с промежуточной широтой экспрессии имеют наибольшую функциональную сложность на всех исследованных уровнях: в сетях межгенных взаимодействий, биохимических путях, модулях клеточных сетей, описываемых категориями Gene Ontology, группах генов, регулируемых определенными транскрипционными факторами, группах генов, кодирующих определенные функциональные белковые домены, группах "слов" аминокислотных последовательностей кодируемых белков и нуклеотидных последовательностей интронов и промоторных участков генов (полного и редуцированного алфавитов) (рис. 8). Показано также, что на модулярном уровне (т.е. в группах генов, связанных общей функцией) дихотомия общеклеточных и тканеспецифичных внутригеномных объектов выражена еще сильнее, чем на генном уровне (рис. 9).

Рис. 9. Число "избыточных" категорий 11Gene Ontology (GO) в группах генов человека, экспрессированых в различном 80 количестве тканей (0-72). Число генов примерно одинаково в каждой группе.

"Избыточные" (overrepresented) - это категории, представленные выше уровня, ожидаемого на основании случайного распределения. Видно, что "избыточные" GO категории представлены в основном в тканеспецифичных (0-5) и общеклеточных генах (72). Красный - Biological Processes, синий - Molecular 0-5 6-18 19-37 38-54 55-66 67-71 0-5 6-18 19-37 38-54 55-66 67-71 Functions, зеленый - Cellular Components.

Количество тканей Количество тканей Количество GO категорий Количество GO категорий Мы предполагаем, что именно сложность регуляции генов и генных модулей с промежуточной широтой экспрессии и привела к возникновению дихотомии общеклеточных и тканеспецифичных генов и модулей клеточных сетей. Известно, что именно сложность регуляции является основным ограничителем увеличения количества генов в геноме (Mattick, Gagen 2005).

Доля ГЦ-пар, физические свойства ДНК и конденсация хроматина:

внутригеномная вариабельность Геномы теплокровных состоят из изохор, т.е. участков ДНК размером >300 kb, имеющих сходный ГЦ-состав (отличающийся от ГЦ-состава соседних изохор), которые определяют характерный хромосомный бэндинг (напр., Bernardi 2000, 2004; Eyre-Walker, Hurst 2001). В литературе имелись две основные интерпретации этого явления. Нейтралистская интерпретация объясняла появление изохор внутригеномной вариацией мутационного давления, а селекционистская гипотеза связывала появление более термоустойчивых ГЦбогатых изохор с повышенной температурой тела теплокровных. Для того чтобы понять, каким образом возникает сходство ГЦ-состава интронов и экзонов в генах изохор, была изучена корреляция между ГЦ-составом интронов и соседних экзонов в широком эволюционном диапазоне (Vinogradov 2001c).

Установлено, что в геномах с изохорной структурой концы интронов коррелируют с соседними экзонами гораздо сильнее, чем середины интронов (оценивались участки интронов длиной 50 нуклеотидов). В геномах без изохорной структуры такой закономерности не наблюдалось. В то же время, там была обнаружена повышенная локальная гетерогенность - более высокий контраст между средним ГЦ-составом интронов и соседних экзонов. Эти данные свидетельствуют против нейтралистской гипотезы о мутационном формировании изохор, поскольку маловероятно, чтобы спектр мутаций менялся на коротком сегменте ДНК вдоль длины интрона. Был сделан вывод о том, что локальная гомогенность ГЦ-состава внутри изохоры может возникать для того, чтобы минимизировать контраст в доле ГЦ-пар между соседними участками молекулы ДНК внутри изохоры.

В ходе этой работы для нескольких наиболее изученных геномов была также исследована плотность распределения мобильных элементов в различных участках интрона. Это необходимо было сделать в связи с тем, что, согласно литературным данным, различия ГЦ-состава середины интрона и его краев могли объясняться более высокой вероятностью интеграции мобильных элементов в середину интрона. Оказалось, однако, что лишь небольшая часть обнаруженного эффекта может быть объяснена неодинаковой частотой интеграции мобильных элементов. При этом было обнаружено, что дивергенция мобильных элементов от их консенсусных последовательностей в геноме человека идет быстрее на краю интрона, чем в его середине. Это также согласуется с предположением о селективном характере эволюции интронов и подстройке их ГЦ-состава под ГЦ-состав соседних экзонов (степень которой зависит от отдаленности данного участка интрона от экзона).

Полученные данные, а также предположение о том, что интроны могут быть необходимы для правильной структуры хроматина, послужили толчком к началу исследований физических свойств молекулы ДНК (гибкости, кривизны, термостабильности и способности к B-Z переходу) в геномах различных организмов (Vinogradov 2001d, 2003b). Оказалось, что во всех исследованных последовательностях ДНК гибкость и способность к B-Z переходу увеличиваются с увеличением содержания ГЦ-пар, в то время как кривизна – снижается (рис. 10). Возрастает также и термостабильность (что, как известно, обусловлено наличием третьей водородной связи и более высокой полярностью ГЦ-пары). Все эти зависимости очень сильны (r>0.95). Гибкость и способность к B-Z переходу показывают очень сильную положительную корреляцию между собой, причем значительная часть этой корреляции сохраняется даже при фиксированной доле ГЦ-пар.

Возможно, оба параметра определяются одними и теми же Рис. 10. Зависимость способности ДНК к B-Z фундаментальными свойствами переходу от доли ГЦ-пар в интронах человека.

биспирали ДНК.

При сравнении с рандомизированными последовательностями было обнаружено, что в геномах теплокровных при увеличении доли ГЦ-пар гибкость и способность к B-Z переходу возрастает относительно быстрее, чем в рандомизированных последовательностях, а термостабильность и кривизна - относительно медленнее. Эта закономерность наблюдалась как в некодирующей ДНК (интронах и межгенных промежутках), так и в экзонах, но сильнее всего она выражена в интронах. Обнаруженная закономерность распространяется также и на дивергенцию ретротранспозонов Alu, использованных в качестве маркеров эволюционных изменений. При дивергенции от консенсусной последовательности (которая аппроксимирует исходную активную копию ретротранспозона) относительная гибкость и способность к B-Z переходу увеличиваются, а кривизна и термостабильность молекулы ДНК снижаются.

Известно, что гибкость и способность к B-Z переходу молекулы ДНК связаны с активной транскрипцией и деконденсированным хроматином, в то время как повышенная кривизна молекулы ДНК характерна для конденсированного хроматина (Herbert, Rich 1996, 1999; Anselmi et al. 1999, 2000). Например, антитела к Z-форме ДНК связываются преимущественно с активно-транскрибируемыми генами, а волна Z-формы движется вслед за РНКполимеразой (Herbert, Rich 1996, 1999). Поэтому наши данные позволяют отвергнуть имеющееся в литературе представление о том, что тяжелые (ГЦбогатые) изохоры возникли в геноме теплокровных для обеспечения термостабильности дуплекса ДНК, и подтверждают нашу гипотезу о том, что их возникновение связано с активацией транскрипции в этих участках генома. Мы предположили, что возникновение изохорной структуры в геномах теплокровных связано с необходимостью более сложной регуляции генов (по сравнению с низшими организмами), опосредуемой структурой хроматина (Vinogradov 2001d, 2003b).

Рис. 11. Двухмерная гистограмма межтканевой широты экспрессии (количества тканей где экспрессируется данный ген) и доли ГЦ-пар третьей позиции кодона (GC3), характеризующей изохорную принадлежность гена, для генов человека (слева) и мыши (справа). Видна дихотомия тканеспецифичных и общеклеточных генов. Видно также, что у человека относительно больше тканеспецифичных генов и более сложное их распределение по изохорам.

Широко используемая в литературе концепция разделения генов на тканеспецифичные и общеклеточные (housekeeping) была подтверждена с помощью анализа большого материала (Vinogradov 2003c). Показано, что большинство генов действительно распадается на два типа – работающие в очень небольшом количестве тканей и работающие во всех тканях. Эти два типа генов видны как пики на гистограмме распределения плотности генов по количеству тканей, в которых они экспрессированы (рис. 11). Однако между этими двумя основными типами имеется также переходная группа генов (плато на гистограмме распределения генов), экспрессированных в промежуточном количестве тканей.

Было показано что в тяжелых (ГЦ-богатых) изохорах генома человека расположены преимущественно гены с широкой межтканевой экспрессией 49 (общеклеточные), а в легких (АТ-богатых) - наоборот, тканеспецифичные гены (рис.

12). Обнаружена корреляция между уровнем экспрессии гена (усредненном по всем изученным тканям) и содержанием ГЦ-пар в кодирующей последовательности 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 Number of tissues Number of tissues Number of tissues Количество тканей Number of tissues Number of tissues Number of tissues Количество тканей (причем, отдельно это показано для Рис. 12. Доля ГЦ-пар в интронах генов синонимных позиций) и интронах данного человека, экспрессированных в гена. Эти результаты подтверждают нашу различном количестве тканей. (32 - гипотезу о том, что тяжелые изохоры максимальное число тканей в этой базе оптимизированы в ходе эволюции для данных.) Intron GC content (%) Intron GC content (%) Intron GC content (%) Intron GC content (%) Intron GC content (%) Intron GC content (%) Содержание ГЦ-пар (%) Содержание ГЦ-пар (%) генов, которые активно транскрибируются (т.е., во всех тканях), а легкие - для генов, которые в большинстве тканей находятся в репрессированном состоянии.

Исследованы также видовые отличия в количестве общеклеточных и тканеспецифичных генов у человека и мыши. Оказалось, что у мыши относительно меньше доля тканеспецифичных генов (рис. 11). При этом снижение доли тканеспецифичных генов у мыши коррелирует с ослаблением изохорной структуры ее генома. Например, гены, которые у человека экспрессированы в большем количестве исследованных тканей, чем у мыши, имеют у человека более высокую долю ГЦ-пар.

На большой базе данных генов человека было показано, что потенциал формирования нуклеосом отрицательно коррелирует с долей ГЦ-пар (Vinogradov 2005b). Установлено также, что потенциал формирования нуклеосом выше в некодирующей ДНК (интронах и межгенных спейсерах) по сравнению с кодирующей, что подтвердило и расширило более ранние данные (Levitsky et al. 2001b). Интересно, что отрицательная корреляция между долей ГЦ-пар и потенциалом формирования нуклеосом сильнее выражена в некодирующей ДНК, чем в кодирующей, что подтверждает особую роль некодирующей ДНК в организации хроматина и изохорной структуре генома теплокровных (Vinogradov, Anatskaya 2006). Кроме того, используя данные по экпрессии генов, мы показали, что потенциал формирования нуклеосом выше в тканеспецифичных генах по сравнению с общеклеточными генами (как в интронах и межгенных промежутках, так и в экзонах) (рис. 13).

1.1.2 Рис. 13. Потенциал формирования нуклеосом в генах человека, экспрессированных в различном количестве тканей. Зеленый - интроны, красный - экзоны (данные для межгенных промежутков 0.0.перекрываются с данными для интронов, поэтому 0.0.не показаны). Видно, что в ткане-специфичных генах (0-1) потенциал формирования нуклеосом 0.0.выше, чем в общеклеточных (32), и что во всех 0.0.типах генов он выше в некодирующей ДНК, чем в 0-1 2-11 12-21 22-31 0-1 2-11 12-21 22-31 кодирующей.

Количество тканей Количество тканей Таким образом, можно сделать вывод, что вариация доли ГЦ-пар в геноме человека имеет значение для регуляции экспрессии генов, опосредуемой конденсацией хроматина. Это находится в соответствии с концепцией "геномного дизайна", выдвинутой ранее (Vinogradov 2004d).

Известно, что в геноме теплокровных часто встречаются островки повышенного содержания ЦфГ-динуклеотидов (в основном, в промоторной области генов и интронах), которые обычно имеют и более высокую долю ГЦпар. В следующей работе (Vinogradov 2005c) было определено влияние как непрерывного параметра (доли ГЦ-пар), так и дискретного (наличие/отсутствие островка повышенного содержания ЦфГ-динуклеотидов) на особенности экспрессии генов человека. Было показано, что доля ГЦ-пар сильнее связана с максимальной интенсивностью экспрессии генов, а уровень ЦфГ-динуклеотидов - с межтканевой широтой экспрессии. При этом были протестированы различные локализации островков повышенного содержания ЦфГПотенциал формирования нуклеосом (у.е.) Потенциал формирования нуклеосом (у.е.) динуклеотидов. Обнаружено, что наибольшее влияние имеет наличие такого островка именно в месте начала транскрипции (±100 bp). Оба параметра (доля ГЦ-пар и уровень ЦфГ-динуклеотидов) отрицательно коррелируют с потенциалом формирования нуклеосом (независимо друг от друга, т.е. даже при исключении эффекта другого параметра) и положительно - со способностью к B-Z переходу. Полученные данные свидетельствуют о том, что вариация как доли ГЦ-пар, так и уровня ЦфГ-динуклеотидов в геноме имеет значение для модуляции различных параметров экспрессии генов, опосредуемой конденсацией хроматина.

Интересно, что в половых клетках корреляция между долей ГЦ-пар и интенсивностью экспрессии генов не обнаружена. Поскольку мутации в соматических клетках не наследуются, можно отвергнуть нейтралистское объяснение, предполагающее, что эта корреляция (наблюдаемая в соматических клетках) является побочным следствием мутационного давления, связанного с активной транскрипцией. (Поскольку в этом случае корреляция наблюдалась бы в первую очередь в половых клетках.) Кроме того, установлено, что сила корреляции уменьшается в ряду: доля ГЦ-пар интронов -> доля ГЦ-пар третьей позиции кодона -> доля ГЦ-пар всей кодирующей последовательности -> доля ГЦ-пар межгенных промежутков. Это позволяет отвергнуть предположение о том, что корреляция связана только с кодирующей ДНК, а также позволяет предположить, что помимо регионального (изохорного) эффекта есть геноспецифический эффект.

В отличие от доли ГЦ-пар, уровень ЦфГ-динуклеотидов коррелирует с интенсивностью экспрессии генов и в половых клетках, что позволяет выдвинуть довольно интригующую гипотезу (Vinogradov 2005c). Известно, что метилирование цитозина в процессе онтогенеза приводит к выключению генов, предположительно за счет усиления конденсации хроматина (Turker 2002; Yates et al. 2003). Известно также, что метилированный цитозин мутирует преимущественно в тимин (Fazzari, Greally 2004). В совокупности с нашими данными, это предполагает механизм наследуемого перевода эпигеномных изменений экспрессии генов (конденсация хроматина за счет метилирования цитозина) в геномные (конденсация хроматина за счет снижения доли ГЦ-пар).

Концепцию "геномного дизайна" можно рассматривать как развитие и расширение на внутригеномный уровень гипотезы "буферной ДНК", сформулированной при исследованиях на клеточном и организменном уровнях.

В последнее время становится ясно, что именно локальная концентрация макромолекул в ядре является основным фактором, формирующим безмембранные внутриядерные компартменты, различающиеся степенью конденсации хроматина (Bancaud et al. 2009). Это очень динамичная структура, с быстрым обменом между связанными и свободными белками даже в случае гетерохроматина (хотя скорость обмена и снижается в гетерохроматине) несмотря на то, что морфологически он выглядит инертным (Bancaud et al. 2009;

Poirier et al. 2009). При этом белки, локализованные в гетерохроматиновых компартментах, постоянно посещают ближайшие сайты связывания, т.е.

оказываются динамически "пойманными" (trapped) внутри своего компартмента за счет большого количества мест связывания, расположенных поблизости (Bancaud et al. 2009). Другими словами, ДНК в составе гетерохроматина локально регулирует (забуферивает) концентрацию ДНК-тропных белков.

Поэтому увеличение вокруг (и внутри) данного гена количества некодирующей ДНК, имеющей повышенный потенциал образования нуклеосом ("gene nest";

Vinogradov 2004d), может обеспечивать более стабильную инактивацию тканеспецифичного гена за счет того, что большее количество гистонов удерживается в динамическом равновесии в области хроматина вокруг гена.

Таким образом, внутригеномная вариация доли ГЦ-пар и размера сегментов некодирующей ДНК создает опосредуемый структурой хроматина "эпигеномный ландшафт" (Vinogradov 2003c), участвующий в регуляции генной экспрессии совместно с ДНК-специфичными сайтами связывания транскрипционных факторов. Ведь известно, что у экариот транскрипционные факторы сами по себе не обладают достаточной специфичностью для однозначного узнавания регуляторного (функционального) места связывания (Wunderlich, Mirny 2009).

Совсем недавно наша гипотеза о том, что возникновение ГЦ-богатых изохор в геномах теплокровных связано с активацией транскрипции в этих участках генома, опосредованной деконденсацией хроматина (Vinogradov 2001d, 2003b,c, 2005b,c), получила сильное экспериментальное подтверждение (Jia et al.

2010). Было показано, что внедрение ГЦ-богатого сегмента некодирующей ДНК в 5- и/или 3-фланкирующие районы различных генов культивируемых клеток млекопитающих приводит к деконденсации хроматина и резкой активации экспрессии этих генов (выше уровня, достигаемого другими методами). В результате был сделан вывод о том, что ГЦ-богатый сегмент ДНК является сильным хроматин-открывающим элементом ("super chromatin opening element") и что данный подход может служить промышленным методом активации экспрессии гена для массового получения кодируемого геном белка (Jia et al.

2010). Авторы также делают вывод о том, что основанная на конденсации хроматина регуляция генной экспрессии включена (по крайней мере, частично) в первичную структуру ДНК, а именно в долю ГЦ-пар. Следует отметить, что ни из нейтралистского (мутационного) объяснения появления изохор, ни из гипотезы термоустойчивости этот экспериментальный результат не следовал.

Эволюция транскриптома и протеома Помимо расхождения в объяснении свойств общей структуры генома (размера генов, сегментов некодирующей ДНК и доли ГЦ-пар), различие между нейтралистскими и адаптационистскими концепциями проявляется и в более глубоком, мировоззренческом аспекте - при выявлении причин увеличения сложности организмов (т.н. прогрессивной эволюции). Нейтралистские интерпретаторы приходят к выводу, что это увеличение происходит в результате ослабления отбора и является просто следствием мутационного давления (напр., Lynch, Conery 2003; Koonin 2004). Другими словами, информация, необходимая для повышения уровня биологической организации, должна создаваться из шума без участия отбора ("демона Максвелла"), что противоречит второму закону термодинамики. Дело доходит до курьезов: например, авторы одного транскриптомного анализа пришли к выводу, что различия в паттернах генной экспрессии между гомологичными тканями человека и мыши - случайные (Yanai et al. 2004). Из этого должно следовать, что и различия в фенотипе между человеком и мышью - случайные.

Сравнение человек-мышь представляет собой идеальную модель для поиска молекулярных и клеточных механизмов, обеспечивающих различие в уровне организации, поскольку оба вида принадлежат к одному и тому же классу животных, т.е. имеют гомологичные ткани и много ортологичных генов.

Мышь имеет более низкий уровень организации вследствие r–отбора (т.е. отбора на скорость размножения, а не на сложность организации, являющуюся результатом К-отбора; Larke, Crews 2006). Геномы обоих модельных видов хорошо изучены, для них имеются обширные данные по транскриптомам, полученные с помощью схожих микроэррэйных платформ. Кроме того, мышь является важной биомедицинской моделью, и полученные на ней данные часто переносятся на человека. В нашей предыдущей работе уже было обнаружено, что по сравнению с мышью у человека относительно больше число тканеспецифичных генов (рис. 11). Это указывает на более высокую специализацию (дифференцировку) клеток. Увеличение степени специализации элементов системы ("разделения труда") давно признано в качестве основной черты прогрессивной эволюции социальных и биологических систем (Smith 1776; McShea 1996; Gould 2002).

В следующей работе мы провели более подробный анализ, используя новые, более обширные данные для большего числа генов и тканей (Vinogradov, Anatskaya 2007). Мы определили долю тканеспецифичных генов и отношение суммарной экспрессии тканеспецифичных генов к суммарной экспрессии общеклеточных (housekeeping) генов у человека и мыши. При этом было применено много различных индикаторов степени тканеспецифичности генов.

Было обнаружено, что для одного и того же набора ортологичных генов и гомологичных тканей у человека наблюдается большая доля тканеспецифичных генов и более высокое отношение экспрессии тканеспецифичных генов к экспрессии общеклеточных генов (рис. 14).

Данный феномен сильнее выражен в тех тканях, которые сильнее вовлечены в повышение уровня организации, продолжительности жизни и размера тела, т.е. этот молекулярный и клеточный феномен отражен также и на организменном уровне (в вариабельности степени его выраженности между различными тканями). Это различные части нервной системы (за исключением обонятельной луковицы - olfactory bulb), скелетные мышцы, сердце, почки.

Особый интерес представляют тригеминальный ганглий (trigeminal ganglion - TGG) и спинной ганглий (dorsal root ganglion - DRG), где эффект выражен даже сильнее, чем в других частях нервной системы. Известно, что TGG конролирует лицевые и ротовые (речь) движения, столь необходимые для социальной организации человека. TGG вовлечен и в анализ визуальной информации, так как в нем конвергирует глазной нерв. DRG содержит клеточные тела сенсорных клеток, собирающих сенсорную информацию с остальных частей тела. В частности, точные движения пальцев, столь важные для человека, зависят от DRG. Таким образом, сильное различие между человеком и мышью в этих двух тканях может отражать не только увеличение биологической сложности, но и переход к ее новому уровню - социальной организации (TGG) и изготовлению орудий труда (DRG).

5.4.4.3.3.2.2.1.1.0.Ткани Рис. 14. Отношение суммарной экспрессии тканеспецифичных генов к суммарной экспрессии общеклеточных (housekeeping) генов у человека (синие квадратики) и мыши (зеленые ромбики), а также отношение первой величины ко второй (красные кружки) в парах гомологичных тканях. Данные получены на основании анализа 11534 пар ортологичных генов. Видно, что все синие точки выше, чем соответствующие зеленые, и как следствие, все красные точки выше единицы. (Красная штриховая линия показывает медиану красных кружков для всех 32 тканей.) Ситуация с обонятельной луковицей, в которой эффект был слабее медианы для всех тканей и особенно слаб по сравнению с другими частями нервной системы, представляет особый интерес. Известно, что для приматов основным каналом информации является зрение, в то время как для грызунов - обоняние. Таким образом, обонятельная луковица - хороший пример исключения, которое только подтверждает правило.

Гены, которые изменили межтканевую широту экспрессии на эволюционном расстоянии между человеком и мышью, показывают также большую эволюционную дивергенцию нуклеотидной последовательности промоторных участков и аминокислотной последовательности кодируемых Разы skin liver lung heart testis ovary uterus kidney tongue thyroid trachea thymus pituitary prostate placenta pancreas amygdala adipocyte spinalcord cerebellum lymphnode pbcd4tcells pbcd8tcells bonemarrow adrenalgland olfactorybulb salivarygland hypothalamus skeletalmuscle prefrontalcortex trigeminalganglion dorsalrootganglion белков. Таким образом, данные функциональной геномики подтверждаются структурным анализом.

У человека также более сильно выражена экспрессия генов, относящихся к трансляционному аппарату. На структурном уровне мы обнаружили, что начальные нетранслируемые участки ортологичных мРНК (5'UTRs) у человека длиннее, чем у мыши (даже после коррекции на разницу в размере геномов).

Они также содержат больше AUG кодонов. Это указывает на более сложную регуляцию на уровне трансляции (Gebauer, Hentze 2004; Churbanov et al. 2005) и хорошо согласуется с увеличением экспрессии генов трансляционного аппарата и усилением клеточной специализации. Регуляция на уровне трансляции более важна именно для сильно специализированных клеток, так как обеспечивает более быстрый и экономичный ответ, но в более узком диапазоне, ограниченном имеющимся транскриптомом (Kindler et al. 2005).

Полученные данные позволяют предположить, что повышение уровня биологической организации связано с усилением экспрессии тканеспецифичных генов и, соответственно, более высокой степенью специализации (дифференцировки) клеток. Каким образом клетки гомологичных тканей двух представителей одного и того же класса млекопитающих (имеющих одинаковый набор органов) могут отличаться по степени специализации? Биохимическая диверсификация (специализация) клеток одного и того же клеточного типа (гепатоцитов) внутри органа была продемонстрирована даже для такого относительно гомогенного органа, как печень (Benhamouche et al. 2006;

Braeuning et al. 2006). По-видимому, степень такой специализации выше в клетках человека. Другими словами, у человека может быть большее число биохимических типов клеток (определяемых уникальными паттернами генной экспрессии) внутри одного и того же морфологического клеточного типа.

С биомедицинской точки зрения, следует сделать вывод,что эволюционные различия необходимо учитывать при перенесении результатов, полученных на более простых моделях, на человека. Известно, например, что клетки человека более устойчивы к малигнизации, чем мышиные (Rangarajan, Weinberg 2003; Rangarajan et al. 2004). Таким образом, различие в продолжительности жизни организмов отражается и на клеточном уровне.

В следующей работе были проанализированы факторы, влияющие на скорость эволюции белков млекопитающих (Vinogradov 2010a). Это важная проблема в области молекулярной эволюции потому, что выявление факторов, определяющих скорость эволюции, позволяет судить о том, какие факторы вообще влияют на эволюцию белков. По этому вопросу существуют противоречивые мнения. В последнее время возобладала нейтралистская точка зрения, согласно которой главным детерминантом скорости эволюции белка является уровень его экспрессии. Предполагается, что негативная связь между этими параметрами возникает в результате стабилизирующего (purifying) отбора против токсичности неправильно свертывающихся мутантных белков, который должен быть более сильным в случае интенсивно экспрессирующихся генов (Koonin, Wolf 2006; Drummond, Wilke 2008; Powers, Balch 2008). Другими словами, предполагается, что эволюция белка определяется индивидуальным (по-генным) эффектом. Полагают, что остальные факторы играют второстепенную роль или даже что их эффект объясняется корреляцией с уровнем экспрессии (Drummond et al. 2006; Hakes et al. 2007).

Однако мы показали, что скорость эволюции ко-экспрессированных генов, белков-интерактантов и генов, принадлежащих к тому же биохимическому пути, является наиболее важным фактором, определяющим скорость эволюции данного белка (Табл. 1) (Vinogradov 2010a). Другим важным фактором является сложность регуляции кодирующего белок гена (оцениваемая по числу мишеней транскрипционных факторов и регуляторных микро-РНК в регуляторных участках гена). Белки, кодируемые более сложно-регулируемыми генами, эволюционируют медленней (Табл. 1). Длина интронов и отношение длины интронной ДНК к кодирующей также негативно коррелируют со скоростью эволюции кодируемого белка (Табл. 1). Это перекликается с нашими предыдущими данными о том, что интроны несут регуляторную нагрузку и что большее количество интронной ДНК означает более сложную регуляцию (Vinogradov 2004d, 2006a). Эволюционный возраст гена - еще один важный фактор (Табл. 1). Более новые гены эволюционируют быстрее, особенно гены, появившиеся на этапе многоклеточности. (Эволюционный возраст гена можно считать системным фактором, поскольку новый ген и кодируемый им белок должны встроиться в уже существующие клеточные системы.) Таким образом, эти данные противоречат нейтралистской концепции о том, что один индивидуальный фактор в основном определяет скорость эволюции белка, и показывают, что системные факторы доминируют в эволюции белков млекопитающих. Этот результат уже подтвержден и детализирован для ряда биохимических путей другими авторами (Ainali et al. 2011).

Табл. 1. Значения F-value (отношение дисперсии, объясняемой предиктором, к остаточной дисперсии) различных предикторов скорости эволюции белков млекопитающих при сравнении ортологичных генов человека и мыши. Анализ общей линейной модели (ОЛМ) был сделан с III типом суммы квадратов, при котором эффект каждого тестируемого параметра не зависит от порядка, в котором он вводится в модель. Знак показывает направление зависимости.

Последние четыре параметра были протестированы отдельно друг от друга (из-за различного числа имеющихся генов), но вместе с первыми шестью. (Уровни значимости различных Fvalue при n>5000: 7, p<10-2; 11, p<10-3; 16, p<10-4; 24, p<10-6; 42, p<10-10; 68, p<10-16).

Параметр n=7754 n=5526 n=12630 n=12630 Знак Уровень экспрессии данного гена 5.7 9.9 48.5 41.3 - Средний уровень экспрессии ко- 14.6 7.3 14.4 17.8 + экспрессированных генов Число ко-экспрессированных генов 1.1 0.5 5.9 6.8 - Среднее число ко- 0.2 2.5 28.2 27.1 + экспрессированных генов у коэкспрессированных генов Скорость эволюции ко863.5 286.6 1670.0 1713.5 + экспрессированных генов Эволюционное происхождение 823.1 335.9 945.9 1049.4 + данного гена Число транскрипционных факторов 725.2 --- --- --- - Число регуляторных микро-РНК --- 331.9 --- --- - Длина интронной ДНК --- --- 180.0 --- - Отношение длины интронной ДНК --- --- --- 235.6 - к длине кодирующей Выводы 1) У наземных позвоночных существует негативная зависимость между размером генома и интенсивностью метаболизма (независимого от размера тела), предполагающая функциональное (адаптивное) начение некодирующей ДНК. У них обнаружены две линии регрессии интенсивности метаболизма на размер генома. Одна линия представлена млекопитающими и амфибиями, вторая (с более крутым наклоном) - птицами и рептилиями. У наземных позвоночных существуют также зависимости между размером генома и долей ГЦ-пар и между долей ГЦ-пар, потенциалом образования нуклеосом и размером клеточного ядра (т.е. конденсацией хроматина).

2) Гибкость и способность к B-Z переходу дуплекса ДНК увеличиваются при увеличении содержания ГЦ-пар быстрее, чем в рандомизированных последовательностях, а термостабильность - медленнее. Доля ГЦ-пар негативно коррелирует с потенциалом образования нуклеосом. Эти данные позволяют отвергнуть имеющееся в литературе представление о том, что "тяжелые" (ГЦ-богатые) изохоры возникли в геноме теплокровных для обеспечения термостабильности молекулы ДНК, и предположить, что их возникновение связано с активацией транскрипции в этих участках генома.

3) Гены человека с промежуточной межтканевой широтой экспрессии (т.е. не тканеспецифичные и не общеклеточные) имеют наибольший размер (как интронной, так и кодирующей части), а кодируемые ими белки содержат наибольшее число функциональных доменов. Эти гены имеют наибольшую функциональную сложность на всех исследованных уровнях: в сетях белковых взаимодействий, биохимических путях, модулях, описываемых категориями Gene Ontology, группах генов, регулируемых определенными транскрипционными факторами, группах генов, кодирующих определенные функциональные белковые домены, группах "слов" аминокислотных последовательностей кодируемых белков и нуклеотидных последовательностей интронов и промоторных участков. На модулярном уровне (т.е. на уровне групп генов, связанных общей функцией) дихотомия общеклеточных и тканеспецифичных объектов выражена сильнее, чем на уровне отдельных генов. Предполагается, что именно сложность регуляции генов и генных модулей с промежуточной широтой экспрессии и привела к возникновению дихотомии общеклеточных и тканеспецифичных генов и модулей.

4) Для одного и того же набора гомологичных (ортологичных) генов и гомологичных тканей у человека больше доля тканеспецифичных генов и более высокое отношение экспрессии тканеспецифичных генов к экспрессии общеклеточных генов, чем у мыши. Гены, которые изменили межтканевую широту экспрессии, показывают также большую эволюционную дивергенцию нуклеотидной последовательности промоторных участков и аминокислотной последовательности кодируемых белков. Эти молекулярные данные показывают, что повышение уровня биологической организации связано с более высокой степенью специализации (дифференцировки) клеток.

5) Скорость эволюции ко-экспрессированных генов, белков-интерактантов и белков, принадлежащих к одному и тому же биохимическому пути, является наиболее важным фактором, определяющим скорость эволюции белков млекопитающих. Другим важным фактором является сложность регуляции кодирующего белок гена. Белки, кодируемые более сложно-регулируемыми генами, эволюционируют медленней. Эти данные показывают, что системные факторы доминируют в эволюции белок-кодирующей ДНК млекопитающих.

6) Подводя общий итог, можно сделать вывод, что все исследованные в данной работе свойства генома (перечисленные в пунктах 1-5) имеют функциональное значение.

Список публикаций по теме диссертации 1. Виноградов А.Е. 1999. Парадокс размера генома и проблема избыточной ДНК. Цитология 41: 5-13.

2. Vinogradov A.E. 1994. Measurement by flow cytometry of genomic AT/GC ratio and genome size. Cytometry 16: 34-40.

3. Vinogradov A.E. 1995a. Nucleotypic effect in homeotherms: body masscorrected basal metabolic rate of mammals is related to genome size.

Evolution 49: 1249-1259.

4. Vinogradov A.E. 1995b. Cell membrane-dependent chromatin condensation. Cytometry 19: 183-188.

5. Vinogradov A.E. 1997. Nucleotypic effect in homeotherms: body massindependent resting metabolic rate of passerine birds is related to genome size.

Evolution 51: 220-225.

6. Vinogradov A.E. 1998a. Genome size and GC-percent in vertebrates as determined by flow cytometry: the triangular relationship. Cytometry 31: 100-109.

7. Vinogradov A.E. 1998b. Variation in ligand-accessible genome size and its ecomorphological correlates in a pond snail. Hereditas 128: 59-65.

8. Vinogradov A.E. 1998c. Buffering: a possible passive-homeostasis role for redundant DNA. J. Theor. Biol. 193: 197-199.

9. Vinogradov A.E. 1999a. Genome in toto. Genome 42: 361-362.

10. Vinogradov A.E. 1999b. Chromatin signal in genome size measurement.

Cytometry 37: 243-245.

11. Vinogradov A.E. 1999c. Intron-genome size relationship on a large evolutionary scale. J. Mol. Evol. 49: 376-384.

12. Vinogradov A.E. 2000. Larger genomes for molluskan land pioneers. Genome 43:

211-212.

13. Vinogradov A.E. 2001a. Mirrored genome size distributions in monocot and dicot plants. Acta Biotheoretica 49: 43-51.

14. Vinogradov A.E. 2001b. Intron length and codon usage. J. Mol. Evol. 52: 2-5.

15. Vinogradov A.E. 2001c. Within-intron correlation with base composition of adjacent exons in different genomes. Gene 276: 143-151.

16. Vinogradov A.E. 2001d. Bendable genes of warm-blooded vertebrates. Mol. Biol.

Evol. 18: 2195-2200.

17. Vinogradov A.E. 2002. Growth and decline of introns. Trends Genet. 18: 232-236.

18. Vinogradov A.E. 2003a. Selfish DNA is maladaptive: evidence from the plant Red List. Trends Genet. 19: 609-614.

19. Vinogradov A.E. 2003b. DNA helix: the importance of being GC-rich. Nucleic Acids Res. 31: 1838-1844.

20. Vinogradov A.E. 2003c. Isochores and tissue-specificity. Nucleic Acids Res. 31:

5212-5220.

21. Vinogradov A.E. 2003d. Silent DNA: speaking RNA language? Bioinformatics 9:

2167-2170.

22. Vinogradov A.E. 2004a. Testing genome complexity. Science 304: 389-390.

23. Vinogradov A.E. 2004b. Genome size and extinction risk in vertebrates. Proc.

Roy. Soc. B 271: 1701-1705.

24. Vinogradov A.E. 2004c. Evolution of genome size: multi-level selection, mutation bias or dynamical chaos? Curr. Opin. Genet. Devel. 14: 620-626.

25. Vinogradov A.E. 2004d. Compactness of human housekeeping genes: selection for economy or genomic design? Trends Genet. 20: 248-253.

26. Vinogradov A.E. 2005a. Genome size and chromatin condensation in vertebrates.

Chromosoma 113: 362-369.

27. Vinogradov A.E. 2005b. Noncoding DNA, isochores and gene expression:

nucleosome formation potential. Nucleic Acids Res. 33: 559-563.

28. Vinogradov A.E. 2005c. Dualism of gene GC content and CpG pattern in regard to expression in the human genome: magnitude versus breadth. Trends Genet. 21:

639-643.

29. Vinogradov A.E. 2006a. "Genome design" model: evidence from conserved intronic sequence in human-mouse comparison. Genome Res. 16: 347-354.

30. Vinogradov A.E. 2006b. 'Genome design' model and multicellular complexity:

golden middle. Nucleic Acids Res. 34: 5906-5914.

31. Vinogradov A.E., Anatskaya O.V. 2006. Genome size and metabolic intensity in tetrapods: a tale of two lines. Proc. Roy. Soc. B 273: 27-32.

32. Vinogradov A.E., Anatskaya O.V. 2007. Organismal complexity, cell differentiation and gene expression: human over mouse. Nucleic Acids Res. 35:

6350-6356.

33. Vinogradov A.E. 2010. Systemic factors dominate mammal protein evolution.

Proc. Roy. Soc. B 277: 1403-1408.

Список цитируемой литературы Ainali C. et al. 2011. Protein coalitions in a core mammalian biochemical network linked by rapidly evolving proteins. Mol. Biol. Evol. (in press).

Anselmi C. et al. 1999. Dual role of DNA intrinsic curvature and flexibility in determining nucleosome stability. J. Mol. Biol. 286: 1293-1301.

Anselmi C. et al. 2000. A theoretical model for the prediction of sequence-dependent nucleosome thermodynamic stability. Biophys. J. 79: 601-613.

Bancaud A. et al. 2009. Molecular crowding affects diffusion and binding of nuclear proteins in heterochromatin and reveals the fractal organization of chromatin. EMBO J. 28: 37853798.

Benhamouche S. et al. 2006. Apc tumor suppressor gene is the "zonation-keeper" of mouse liver. Dev. Cell 10: 759-770.

Bernardi G. 2000. Isochores and the evolutionary genomics of vertebrates. Gene 241: 3-17.

Bernardi G. 2004. Structural and Evolutionary Genomics. Natural Selection in Genome Evolution. Elsevier, Amsterdam.

Bishop C.M. 2005. Circulatory variables and the flight performance of birds. J. Exp. Biol.

208: 1695-1708.

Braeuning A. et al. 2006. Differential gene expression in periportal and perivenous mouse hepatocytes. FEBS J. 273: 5051-5061.

Castillo-Davis C.I. et al. 2002. Selection for short introns in highly expressed genes. Nature Genet. 31: 415-418.

Churbanov A. et al. 2005. Evolutionary conservation suggests a regulatory function of AUG triplets in 5'-UTRs of eukaryotic genes. Nucleic Acids Res. 33: 5512-5520.

Cohen-Gihon I. et al. 2005. Modular genes with metazoan-specific domains have increased tissue specificity. Trends Genet. 21: 210-213.

Croft D. et al. 2011. Reactome: a database of reactions, pathways and biological processes.

Nucleic Acids Res. 39: D691- D697.

Dawson T.J. et al. 2003. Functional capacities of marsupial hearts: size and mitochondrial parameters indicate higher aerobic capabilities than generally seen in placental mammals.

J. Comp. Physiol. B. 173: 583-590.

Drummond D.A. et al. 2006. A single determinant dominates the rate of yeast protein evolution. Mol. Biol. Evol. 23: 327-337.

Drummond D.A., Wilke C.O. 2008. Mistranslation-induced protein misfolding as a dominant constraint on coding-sequence evolution. Cell 134: 341-352.

Eisenberg E., Levanon E.Y. 2003. Human housekeeping genes are compact. Trends Genet.

19: 362-365.

Eyre-Walker A., Hurst L.D. 2001. The evolution of isochores. Nat. Rev. Genet. 2: 549-555.

Fazzari M.J., Greally J.M. 2004. Epigenomics: beyond CpG islands. Nat. Rev. Genet. 5: 446455.

Gabrielian A., Pongor S. 1996. Correlation of intrinsic DNA curvature with DNA property periodicity. FEBS Let. 393: 65-68.

Gebauer F., Hentze M.W. 2004. Molecular mechanisms of translational control. Nat. Rev.

Mol. Cell Biol. 5: 827-835.

Gene Ontology Consortium. 2010. The Gene Ontology in 2010: extensions and refinements.

Nucleic Acids Res. 38: D331-D335.

Gould S.J. 2002. The Structure of Evolutionary Theory. Harvard University Press, Cambridge, Massachusetts.

Gregory T.R. 2002. A bird's-eye view of the C-value enigma: genome size, cell size, and metabolic rate in the class Aves. Evolution 56: 121-130.

Gregory T.R. et al. 2009. The smallest avian genomes are found in hummingbirds. Proc. Roy.

Soc. B. 276: 3753-3757.

Hakes L. et al. 2007. Specificity in protein interactions and its relationship with sequence diversity and coevolution. Proc. Natl. Acad. Sci. USA 104: 7999-8004.

Herbert A., Rich A. 1996. The biology of left-handed Z-DNA. J. Biol. Chem. 271: 1159511598.

Herbert A., Rich A. 1999. Left-handed Z-DNA, structure and function. Genetica 106: 37-47.

Hunter S. et al. 2009. InterPro: the integrative protein signature database. Nucleic Acids Res.

37: D211-D215.

Jensen L.J. et al. 2009. STRING 8 - a global view on proteins and their functional interactions in 630 organisms. Nucleic Acids Res. 37: D412-D416.

Jia Q. et al. (43 authors). 2010. A "GC-rich" method for mammalian gene expression: a dominant role of non-coding DNA GC content in regulation of mammalian gene expression. Science China Life Sci. 53: 94-100.

Jurka J. et al. 2005. Repbase Update, a database of eukaryotic repetitive elements. Cytogenet Genome Res. 110: 462-467.

Kanehisa M. et al. 2008. KEGG for linking genomes to life and the environment. Nucleic Acids Res. 36: D480- D484.

Kindler S. et al. 2005. RNA transport and local control of translation. Annu. Rev. Cell Dev.

Biol. 21: 223-245.

Koonin E.V. 2004. A non-adaptationist perspective on evolution of genomic complexity or the continued dethroning of man. Cell Cycle 3: 280-285.

Koonin E.V., Wolf Y.I. 2006. Evolutionary systems biology: links between gene evolution and function. Curr. Opin. Biotechnol. 17: 481-487.

Kozlowski J. et al. 2003. Cell size as a link between noncoding DNA and metabolic rate scaling. PNAS USA 100: 14080-14085.

Lafontaine I., Lavery R. 2000. Optimization of nucleic acid sequences. Biophys. J. 79: 680685.

Larke A., Crews D.E. 2006. Parental investment, late reproduction, and increased reserve capacity are associated with longevity in humans. J. Physiol. Anthropol. 25: 119-131.

Levitsky V.G. 2004. RECON: a program for prediction of nucleosome formation potential.

Nucleic Acids Res. 32: W346- W349.

Levitsky V.G., Podkolodnaya O.A., Kolchanov N.A., Podkolodny N.L. 2001a. Nucleosome formation potential of eukaryotic DNA: calculation and promoters analysis. Bioinformatics 17: 998-1010.

Levitsky V.G., Podkolodnaya O.A., Kolchanov N.A., Podkolodny N.L. 2001b. Nucleosome formation potential of exons, introns, and Alu repeats. Bioinformatics 17: 1062-1064.

Loborg H., Rundquist I. 1997. DNA binding fluorochromes as probes for histone H1chromatin interactions in situ. Cytometry 28: 212-219.

Lynch M., Conery J.S. 2003. The origins of genome complexity. Science 302: 1401-1404.

Mattick J.S., Gagen M.J. 2005. Accelerating networks. Science 307: 856-858.

McShea D.W. 1996. Metazoan complexity and evolution: Is there a trend? Evolution 50: 477492.

Munteanu M.G. et al. 1998. Rod models of DNA, sequence-dependent anisotropic elastic modelling of local bending phenomena. TIBS 23: 341-347.

Nesse R.M. et al. 2010. Making evolutionary biology a basic science for medicine. PNAS USA 107 Suppl 1: 1800-1807 (а также другие статьи коллоквиума NAS USА “Evolution in Health and Medicine” в том же номере PNAS).

Organ C.L. et al. 2009. Sauropod dinosaurs evolved moderately sized genomes unrelated to body size. Proc. Roy. Soc. B. 276: 4303-4308.

Poirier M.G. et al. 2008. Spontaneous access to DNA target sites in folded chromatin fibers.

J. Mol. Biol. 379: 772-786.

Poirier M.G. et al. 2009. Dynamics and function of compact nucleosome arrays. Nat. Struct.

Mol. Biol. 16: 938-944.

Powers E.T., Balch W.E. 2008. Costly mistakes: translational infidelity and protein homeostasis. Cell 134: 204-206.

Rangarajan A. et al. 2004. Species- and cell type-specific requirements for cellular transformation. Cancer Cell 6: 171-183.

Rangarajan A., Weinberg R.A. 2003. Comparative biology of mouse versus human cells:

modelling human cancer in mice. Nat. Rev. Cancer 3: 952-959.

Redi C.A. et al. 2007. Genome size: a novel genomic signature in support of Afrotheria. J.

Mol. Evol. 64: 484-748.

Richey B. et al. 1987. Variability of the intracellular ionic environment of Escherichia coli.

Differences between in vitro and in vivo effects of ion concentrations on protein-DNA interactions and gene expression. J. Biol. Chem. 262: 7157-7164.

Rubidge B.S., Sidor C.A. 2001. Evolutionary patterns among Permo-Triassic therapsids. Ann.

Rev. Ecol. Syst. 32: 449-480.

Russell P., Nurse P. 1986. Schizosaccharomyces pombe and Saccharomyces cerevisiae: a look at yeasts divided. Cell 45: 781-782.

Ruta M. et al. 2003. Early tetrapod relationships revisited. Biol. Rev. Camb. Philos. Soc. 78:

251-345.

SantaLucia J.Jr. 1998. A unified view of polymer, dumbbell, and oligonucleotide DNA nearest-neighbor thermodynamics. Proc. Natl. Acad. Sci. USA. 95: 1460-1465.

Sayers E.W. et al. 2010. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 38: D5-D16.

Sironi M. et al. 2005. Analysis of intronic conserved elements indicates that functional complexity might represent a major source of negative selection on non-coding sequences.

Hum. Mol. Genet. 14: 2533-2546.

Smith A. 1776. The Wealth of Nations. Edinburgh.

Storey J.D., Tibshirani R. 2003. Statistical significance for genomewide studies. Proc. Natl.

Acad. Sci. USA 100: 9440-9445.

Su A.I. et al. 2004. A gene atlas of the mouse and human protein-encoding transcriptomes.

Proc. Natl. Acad. Sci. USA 101: 6062-6067.

Subramanian et al. 2007. GSEA-P: a desktop application for Gene Set Enrichment Analysis.

Bioinformatics 23: 3251-3253.

Turker M.S. 2002. Gene silencing in mammalian cells and the spread of DNA methylation.

Oncogene 21: 5388-5393.

Urrutia A.O., Hurst L.D. 2003. The signature of selection mediated by expression on human genes. Genome Res. 13: 2260-2264.

Venter J.C. et al. (274 authors). 2001. The sequence of the human genome. Science 291:

1304-1351.

Wakaguri H. et al. 2008. DBTSS: database oftranscription start sites, progress report 2008.

Nucleic Acids Res. 36: D97-D101.

Wunderlich Z., Mirny L.A. 2009. Different gene regulation strategies revealed by analysis of binding motifs. Trends Genet. 25: 434-440.

Xing Y. et al. 2007. Assessing the conservation of mammalian gene expression using highdensity exon arrays. Mol. Biol. Evol. 24: 1283-1285.

Yanai I. et al. 2004. Incongruent expression profiles between human and mouse orthologous genes suggest widespread neutral evolution of transcription control. OMICS 8: 15-24.

Yates P.A. et al. 2003. Silencing of mouse Aprt is a gradual process in differentiated cells.

Mol. Cell Biol. 23: 4461-4470.

Автор выражает искреннюю признательность за помощь и моральную поддержку следующим коллегам: О.В.Анацкая, Л.Я.Боркин, С.Н.Литвинчук, В.Н.Парфенов, Е.Д.Петрова, Ю.М.Розанов, А.Л.Юдин, J.Bogart, D.Green, L.D.Hurst, V.L.Larionov, J.S.Mattick, D.A.Petrov, C.A.Redi, R.Trivers.




© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.