WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 | 2 || 4 |

В то же время, поскольку в промоторной области ИИГ наблюдалось превышение концентрации сайтов связывания специфических транскрипционных регуляторов, мы провели детальное исследование расположения сайтов связывания различных транскрипционных факторов в промоторах разных групп генов. Было проверено предположение о возможной функциональной специфичности распределения сайтов в более узких районах некодирующих областей ИИГ. Анализ показал, что при p value=0.01 для сайтов связывания IRF1, ISGF3, STAT1, AP1, NF-B, GATA, Oct1, NF-Y, действительно, наблюдались специфичные для ИИГ локальные повышения плотности в промоторных районах. На Рисунке 4 приведено распределение потенциальных сайтов связывания ISGF3 в районе [-500; +500] п.о. относительно старта транскрипции. Из диаграммы видно, что в районе [-100; -1] п.о. этот сайт встречался только у ИИГ, а в районах [-400; -300] и [-200; -100] п.о. встречаемость сайта связывания ISGF3 у ИИГ более чем в два раза выше, чем у генов липидного метаболизма или глюкокортикоид-регулируемых генов. При этом исключение сайтов, входивших в обучающую выборку, практически не меняет характера распределения.

Рисунок 4. Количество потенциальных сайтов связывания ISGF3 в пересчете на один ген выборки для разных функциональных групп генов. По оси Х указан район относительно старта транскрипции "0" соответствует району [-100; -1], "-100" - району [-200; -100] и т.д.

Уровень значимости (p-value) по стандартному критерию -квадрат был равен 0.01.

Похожая картина распределения наблюдалась и для потенциальных сайтов связывания IRF1. Потенциальные сайты связывания STAT1 у ИИГ практически не встречались в районах [-400; -300] п.о., но в районах [-100; -1] п.о. этот тип сайтов встречался исключительно у ИИГ, и не встречаются у других групп генов. Для распределения сайтов связывания AP1 в промоторных районах ИИГ характерно более чем двукратное превышение частоты встречаемости в районе [-200; -1] п.о. по сравнению с другими генами. Для сайтов связывания NF-B, GATA, Oct1 и NF-Y также характерна повышенная плотность в промоторных районах ИИГ, но она лишь ненамного превышает плотность таких сайтов в соответствующих районах генов других выборок. По числу ТАТА-содержащих промоторов ИИГ занимают промежуточное положение между глюкокортикоид-регулируемыми и генами липидного метаболизма.

Таким образом, нами выявлены достоверные отличия регуляторных районов ИИГ от регуляторных районов других генов по такой особенности как повышенное содержание сайтов связывания факторов IRF1, ISGF3, STAT1, AP1 и ТАТА-боксов в промоторном районе [-200, -1] п.о. относительно старта транскрипции. Именно эта особенность была положена в основу построения методов распознавания интерферон-индуцируемых генов.

Анализ информации, накопленной в базе данных TRRD, показывает, что одиночные сайты крайне редко играют решающую роль в определении уровня транскрипции гена. Как правило, в каждой ситуации работает сразу несколько транскрипционных факторов, которые часто взаимодействуют друг с другом. Основываясь на этом положении, некоторые исследователи переходят от изучения отдельных типов сайтов к изучению особенностей распределения разных типов сайтов. Для ИИГ таких исследований ранее не проводилось, поэтому нами было изучено взаимное расположения разных типов сайтов как по отношению друг к другу, так и по отношению к старту транскрипции. Исследовались протяженные регуляторные районы обучающей выборки ИИГ человека из базы данных IIG-TRRD. В качестве контроля было использовано несколько выборок: (1) случайно сгенерированные последовательности соответствующей длины с сохранением частот динуклеотидов, (2) случайные промоторы из базы данных EPD, (3) глюкокортикоид-регулируемые гены и (4) гены липидного метаболизма.

При построении методов распознавания ИИГ были определены частоты встречаемости не только одиночных сайтов, но и различных комбинаций сайтов. Под комбинацией подразумевается одновременное присутствие двух или трех сайтов одного или разных типов на заданном расстоянии друг от друга и/или в заданном районе относительно старта транскрипции. При анализе закономерностей расположения пар сайтов в первую очередь были определены частоты встречаемости пар потенциальных сайтов, значимых для функционирования ИИГ, а именно, IRF1, ISGF3, STAT1, NF-B и AP1. После этого были определены частоты встречаемости различных комбинаций как этих, так и еще 13-ти других транскрипционных факторов, а именно, C/EBP, E2F, GATA1, GR, HNF1, HNF3, HNF4, MyoD, NF-Y, Oct1, Pu.1, SF1, Sp1 и ТАТА-бокса. При построении методов распознавания ИИГ производился отбор комбинаций сайтов, частота встречаемости которых была статистически значимо выше в регуляторных районах ИИГ по сравнению с другими группами генов. Для отбора пары сайтов использовался стандартный критерий независимости -квадрат, уровень значимости p-value<0.01.

Всего было проанализировано несколько сотен различных комбинаций сайтов, из которых отобрано только несколько десятков, имеющих статистически значимое отличие в частоте встречаемости у исследуемых генов по отношению ко всем контрольным выборкам. Например, одновременное присутствие TATA-бокса и сайта связывания STAT1 в районе [-250; -1] п.о. в промоторах ИИГ встречался в 18.6 раз чаще, чем в случайных промоторах из GenBank. Для большинства отобранных пар сайтов уровень значимости оказался p-value<0.001, что свидетельствует о более высокой статистической достоверности полученных результатов. Используя эти комбинации и информацию о типе индукции каждого гена контрольной выборки, было создано три метода распознавания интерферон-индуцибельных районов в регуляторных областях генов:

  1. метод R0 - распознавание любых интерферон-индуцируемых промоторов и регуляторных областей генов (индукция всеми интерферонами);
  2. метод R1 - распознавание промоторов и регуляторных областей генов, индуцируемых интерфероном 1-го типа (IFN, IFN);
  3. метод R2 - распознавание промоторов и регуляторных областей генов, индуцируемых интерферонами 2-го типа (IFN).

В Таблице 4 приведено общее количество комбинаций сайтов, использованных в каждом методе.

Таблица 4.

Количество комбинаций сайтов, использованных в методах распознавания ИИГ

Метод

Кол-во используемых комбинаций

Метод R0 - распознавание любых интерферон-индуцируемых генов

28

Метод R1 - распознавание генов, индуцируемых интерферонами I типа (IFN, IFN)

23

Метод R2 - распознавание генов, индуцируемых интерферонами II типа (IFN)

18

Для оценки созданных методов предсказания интерферон-индуцибельных промоторов и энхансеров была проведена проверка выборок ИИГ, составленных на основе опубликованных в мировой литературе данных микрочипового анализа (19 статей, 48 экспериментов), в результате которого были выявлены группы генов, транскрипция которых усиливалась в ответ на действие интерферонов. На основе этой информации нами были сформирована выборка М0, которая содержала 1005 последовательностей генов (район [-5000; +2000] п.о. относительно старта транскрипции). Поскольку не по всем генам, входящим в эту выборку, имелась информация о типе интерфероновой индукции и ее количественные оценки, на основе выборки М0 были сформированы еще две подвыборки: М1 и М2.

Подвыборка М1 (668 последовательностей) содержала только последовательности генов, индукция которых в первые 12 часов после действия интерферонов первого типа (IFN, IFN) более чем в два раза превышала базальный уровень. Таким образом было отсечено большинство генов, индукция которых интерферонами была не столь выражена.

Подвыборка М2 (97 последовательностей) содержала последовательности генов, индукция которых в первые 12 часов после его действия интерферона второго типа (IFN) более чем в два раза превышала базальный уровень.

Была проверена корреляция между степенью индукции генов в выборке М0 и значением функции распознавания. На Рисунке 5 приведены графики зависимости логарифмических значений функции распознавания и степени индукции при использовании более длинных и более коротких последовательностей. Поскольку информация о степени индукции имелись только для 808 генов из 1005 генов выборки М0, то график построен на основе данных по этим 808 генам.

Рисунок 5. Зависимость логарифмических значений функции распознавания интерферон-индуцируемых генов (метод R0) от степени индукции интерферонами при использовании более длинных (от -5000 до +2000 п.о. относительно старта транскрипции) и более коротких (от -1000 до +1000 п.о. относительно старта транскрипции) последовательностей по выборке М0.

Из графика видно, что при использовании для распознавания более длинных последовательностей, по мере роста индуцибельности также наблюдается рост значения распознающей функции. Коэффициент корреляции в этом случае равен 0.98 (р < 0.01). Если распознавание проводить на более коротких последовательностях промоторных районов, то закономерность нарушается при низких показателях индуцибельности, снижая коэффициент корреляции до 0.90 (р < 0.01).

Нарушение может происходить за счет того, что, во-первых, интерферон-индуцибельные энхансеры часто расположены далеко от старта транскрипции. Известны случаи расположения функциональных энхансеров в 5'-районе около 4600 по отношению к старту транскрипции. При укорачивании анализируемого района мы исключаем из рассмотрения далеко расположенные энхансеры. Вторая причина может заключаться в неточности определения старта транскрипции, либо в наличии альтернативных промоторов. Поскольку программа распознавания выбирает максимальное значение распознающей функции по всему району, то при использовании длинных последовательностей этот максимум может попасть либо в район альтернативного старта транскрипции, далеко отстоящего от используемого в выборке, либо в район сильного интерферон-индуцибельного энхансера.

Было также проведено исследование корреляции между значением функции распознавания ИИГ методов R1 и R2 и уровнем индукции генов под действием интерферонов первого и второго типа на выборках М1 и М2, соответственно. Полученные результаты подтверждают наличие положительной зависимости между значениями функций распознавания и уровнями индукции генов. В свою очередь, это дает основание для использования созданных нами методов распознавания R0, R1 и R2 для решения еще одной важной задачи - оценки количества интерферон-индуцируемых генов в геноме человека.

Следует подчеркнуть, что каждый из методов R1 и R2, примененный по отдельности, позволяет предсказывать гены раннего ответа, индуцируемые интерфероном либо первого, либо второго типа. Метод R0, в свою очередь, ориентирован на распознавание генов как позднего, так и раннего ответа на любые интерфероны.

Для того, чтобы минимизировать перепредсказание и выявлять гены только раннего ответа на все интерфероны, все три метода были применены одновременно. При этом для всех трех методов использовались очень жесткие пороговые ограничения. В таких условиях существенно повышался уровень недопредсказания по обучающей выборке ИИГ, т.к. отсекались практически все гены позднего ответа и большинство генов, индуцируемых только одним типом интерферонов. Из Таблицы 5 видно, что при данных условиях по обучающей выборке (ISG-TRRD) распознано только 23.6%, что частично обусловлено жесткостью пороговых условий, а частично - ограниченностью исследуемого района гена [-1000; +1000] п.о. Распознавание по выборке М0 составило 15.5%. Это меньше, чем по обучающей выборке, поскольку при выявлении ИИГ с помощью микрочипового анализа возможны ошибки, тогда как в обучающую выборку включались ИИГ, индукция интерферонами которых подтверждалась несколькими разными методами. Кроме того, в обеих выборках ИИГ (ISG-TRRD и М0) присутствовали гены позднего ответа, и гены, индуцируемые только одним типом интерферонов, которые, как сказано выше, не распознавались при данных пороговых условиях методов. В контрольных выборках глюкокортикоид-регулируемых генов и генов липидного метаболизма не было найдено ни одного ИИГ (Табл. 5).

Таблица 5.

Распознавание ИИГ по разным выборкам

Выборка

Общее количество последовательностей в выборке

Распознано генов

Распознано в %

ISG-TRRD

72

17

23.6

М0

1005

156

15.5

EPD

1664

78

4.7

Глюкокорт.

70

0

0

Липидн.

58

0

0

Pages:     | 1 | 2 || 4 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»