Наука: что такое биоинформатика

29 января 2009

Ирина Лагунина

Ирина Лагунина: Мы продолжаем рассказывать о новых научных областях. Не так давно в биологии появилась молодая дисциплина - биоинформатика. В ее задачи входит анализ живых организмы с применением компьютерных технологий. Биоинформатики не проводят экспериментов с животными и бактериями, не работают с пробирками, а рассматривают геном просто как последовательность символов, в которой пытаются найти определенную информацию - за что и были прозваны коллегами «телевизионными биологами». Об этом рассказывает доктор биологических наук, заместитель директора Института проблем передачи информации Михаил Гельфанд.

С ним беседуют Ольга Орлова и Александр Марков.

Ольга Орлова: Михаил, чем же занимается ваша наука биоинформатика?

Михаил Гельфанд: У всякого живого существа есть геном, это слово, наверное, все слышали. С точки зрения биохимика - это последовательность ДНК, дезоксирибонуклеиновой кислоты, с точки зрения молекулярного генетика существенно то, что в этой последовательности, в этой очень длинной молекуле записаны собственно гены, то есть информация о том, из каких белков организм состоит и до некоторой степени как они функционируют, а с точки зрения нашей - это просто длинная последовательность символов, которую можно анализировать и пытаться искать какие-то содержательные смыслы. То, за что нас причисляют к биологам – это то, что мы умеем, глядя на эти последовательности, в ДНК найти тот участок, где белок записан, умеем сказать что-то про его функцию, иногда довольно подробно, умеем сказать, когда этот ген работает, в каких тканях или в каких условиях он включается или выключается.

Александр Марков: Вы можете это сказать без экспериментальной проверки, только глядя на последовательность ДНК?

Михаил Гельфанд: Мы непосредственно эксперименты не делаем, другое дело, что потом приходят экспериментаторы, эти предсказания проверяют.

Александр Марков: То есть то, что вы производите – это гипотеза.

Михаил Гельфанд: Фактически – да. Но бывает очень хорошая гипотеза.

Александр Марков: Редко ошибаетесь?

Михаил Гельфанд: Бывает по-разному. Есть какие-то утверждения, которые мы вроде бы делаем довольно уверенно.

Ольга Орлова: А как родилась идея именно таким образом читать?

Михаил Гельфанд: Во-первых, есть большой эксперимент и сейчас даже не эксперимент, а индустрия, по получению этих последовательностей. Во-первых, мы не делаем эксперимента собственно по превращению молекулы в цепочку символов. Сначала это делали экспериментальные биологи, технология, которая позволяла делать - это были выдающиеся открытия, за которые несколько нобелевских премий, за разные этапы этого процесса люди получили. А сейчас это уже индустриальный процесс, это делают просто роботы или в худшем случае роботы с техниками.

Александр Марков: Но потом приходится, по-видимому, биоинформатикам собирать из прочтенных кусков цельное.

Михаил Гельфанд: Сбор из кусков - это техническая вещь, это очень важная сторона биоинформатики, но она чуть техническая и мне не очень хотелось бы про это говорить. Это очень важно, но это кухня и технология. После этого приходим, условно говоря, мы и пытаемся, глядя на эту последовательность, сопоставляя с другими, с экспериментальными фактами, которые известны про другие последовательности, пытаемся сказать про то, что там написано. Опять, когда говорю, что написано, я имею в виду, во-первых, где в этой последовательности расположены участки, кодирующие белок, во-вторых, что это, собственно говоря, за белок, какие у него будут функции. И третье, когда этот белок будет синтезироваться, когда этот ген будет молчать и белок не будет синтезироваться. Вот эта задача молекулярной биоинформатиики, как мы ее понимаем. Вот это то, за что нас любят или не любят – это отдельный вопрос, но то каким способом мы свой хлеб отрабатываем у биологов.

Александр Марков: То есть одни читают геномы, а ваша задача в том, чтобы понять.

Михаил Гельфанд: Читают роботы, мы пытаемся понять, мы пытаемся оттуда найти что-то интересное, предложить это в качестве гипотезы, в качестве предсказания с тем, чтобы потом экспериментально проверялось.

Ольга Орлова: То есть ваша работа биологические прогнозы в каком-то смысле.

Михаил Гельфанд: Можно так сказать.

Александр Марков: Может быть вы приведете какой-то пример?

Ольга Орлова: Что таким образом удалось предсказать?

Михаил Гельфанд: История была такая, тут опять нужно немножечко биологического ликбеза, как происходит экспрессия гена. Есть последовательность ДНК - это стабильная информация, которая передается из поколения в поколение, и она служит матрицей, непосредственно с ней ничего не делают, в первом приближении с ней ничего не делают. Потом есть процесс транскрипции, когда эта двухцепочечная длинная молекула ДНК, отдельные ее участки копируются в матрицу для производства белка. Этот процесс называется транскрипция, довольно хорошо изучен. Это чисто формально делается копия этого кусочка. Там на самом деле есть интересная задача, которой мы много занимались – это как понять, где начало куска, который копируется, где конец. Сигналы для того, чтобы сказать - здесь начинать транскрипцию, а здесь кончать, они записаны там же в геноме. И соответственно ферменты, которые транскрипцию осуществляют, они умеют узнать специальный участок начала транскрипции, после этого они начинают транскрипцию, делают копию и умеют узнать сигнал окончания транскрипции. И есть целая большая область биоинформатики, понять, где как эти сигналы в ДНК написаны. А дальше получившаяся матрица, тоже нуклеиновая кислота, только не ДНК, а РНК, химия немножко другая. С точки зрения биологов большая разница, биохимиков. С точки зрения нас, и то, и другое последовательность символов в алфавите из четырех букв. Это то, что биологи нас не любят. А дальше матрица используется для того, чтобы синтезировать тот белок, который там записан есть генетический код - это таблица соответствий между коротенькими словами в нуклеотидном алфавите из трех букв и аминокислот. Аминокислоты - это элементарные единицы, из которых белки сделаны, их бывает 20. Есть таблица генетического кода, которая говорит, что увидев эти три нуклеотида, присоедини к растущему белку вот такую аминокислоту. Это довольно давно, еще в 60 годы Криг и много других людей эту таблицу установили, это было очень красивые эксперименты. Сейчас она более-менее стандартна для всех живых существ, бывают небольшие отклонения, но в первом приближении можно считать, что она стандартна. Если есть последовательность ДНК или то же самое последовательность РНК, которая точная копия, и мы знаем, в каком месте начинает ген, то белок, который там записан, можно предсказать автоматически, глядя в эту кодовую таблицу. Она более-менее однозначна. Поэтому первая задача, которая, она сейчас более-менее успешно решена, даже необязательно нами, разными людьми, это собственно задача поиска участков в геноме, в которых начинаются и кончаются записи белков. Потому что реально в биологии, в живом существе в основном работают белки - это ферменты, это структурные белки, транспортные белки, рецепторы, все, что угодно, сигнальная система устроена в основном на белках. То есть на самом деле основные молекулы, которые в живой клетке работают, это белки. Функции белков интересно изучать. Первая задача, которая была решена, такая довольно по формулировке простая. Вот у вас есть последовательность генома, она довольно длинная. Опять же, чтобы понимать характерные размеры задачи, бактериальный геном - это несколько миллионов букв и несколько тысяч генов. А геном человека - это три миллиарда нуклеотидов и примерно 20-25 тысяч генов, кодирующих белки, там еще есть другие, я про белок кодирующие говорю. Первая задача, которая более-менее в первом приближении сейчас решена, и это собственно задача выделения в этой длинной последовательности тех участков, которые кодируют белки. И эта задача была решена в первую очередь. Первые работы такого сорта были экспериментальные, и потом на этом экспериментальном материале научились узнавать сигналы начала, сигналы конца, научились понимать, по каким свойствам участки, кодирующие белок, отличаются от других участков ДНК, там еще много всего, там есть регуляторные участки, есть просто межгенное пространство, которое не очень понятно, чем занято. Это научились делать в 80-90 годы. После того как какой-то экспериментальный материал был, стали смотреть, какие разные статистические свойства. И оказалось следующее, это быстро было наблюдено, из общих соображений можно было бы догадаться, что так будет, что если вы сравниваете два близких генома, например, человека и мышь, то вы видите, что участки, которые кодируют белок, изменяются в ходе эволюции гораздо медленнее, чем участки, которые белка не кодируют, межгенные участки.

Александр Марков: Иными словами, кодирующие участки в геноме человека и мыши похожи друг на друга, а не кодирующие меньше похожи.

Михаил Гельфанд: Не то, чтобы они совсем не похожи, они меньше похожи. И собственно последнее достижение в этой области, после которой она консолидировалась и дальше были чисто технические продвижения, состояли в следующем: возьми два родственных генома, а лучше не два, а пять, найди там участки, которые похожи больше, чем окружающие и вот это предскажи в качестве участка, кодирующего белок. Возьми таблицу генетического кода, сделай формальную трансляцию с применением этой таблицы, получишь белок и изучай его свойства. Во-первых, ясно, что это работает далеко не всегда. Если у вас есть какой-то молодой ген, который специфичен для приматов, а у других млекопитающих его нет, то вы его таким способом торжественно пропустите. Во-вторых, оказалось, что кроме белок кодирующих участков есть и другие участки, которые консервативны, которые медленно меняются. Например, регуляторные, гены работают не все время, соответственно гены теплового шока включаются, когда вы испытываете тепловой шок, гены метаболизма включаются, когда у вас есть соответствующее, вы что-то такое съели, что продукты этих генов белковые как-то дальше переваривают.

Александр Марков: Но в разных тканях, в разных органах.

Михаил Гельфанд: На самом деле привычнее говорить про бактерии, у них тканей и органов нет и вообще проще изучать, геномов больше. Очевидно, есть разные ткани, разные органы, разные белки работают. Есть белки, которые работают везде, а есть белки специфичные, ткани специфичной экспрессии. Очень важная вещь, когда организм развивается, есть целые программы развития, которые состоят в том, что начинают работ и кончают работать.

Ольга Орлова: Когда происходит рост организма?

Михаил Гельфанд: Скорее даже не рост, когда рост - это большой организм, он не сильно меняется, а в основном когда происходит развитие от яйца, эмбрион, какие-то первые клеточные деления, там очень красиво. Там вычислительных продвижений пока не очень много, хотя они появляются. На самом деле есть основной принцип, я сейчас расскажу байку, а потом сформулирую сам принцип. Был знаменитый английский статистик Пирсон, которого в первую мировую войну призвали в армию.

Александр Марков: Это который коэффициент корреляции.

Михаил Гельфанд: Совершенно верно. Там много вещей в учебнике в честь него. И поскольку он был статистик, его отправили делать статистическую задачу, в отличие от российской армии, где статистиков отправляют сортиры чистить, его отправили заниматься содержательной деятельностью. И была следующая задача: были большие потери в авиации, решили, что самолеты надо укреплять броней, тогда самолеты были легкие в Первую мировую войну. Решили, что надо какие-то места укрепить броней, чтобы потери были меньше. И его отправили считать дырки. Самолет улетает на задание, потом возвращается в аэродром, задача была такая: посчитать дырки и в тех местах, где дырок много, поставить броню, потому что надо защищать. На самом деле нетривиальное место, Пирсон спросил: у каких самолетов дырки считать? Которые возвращаются. Тогда он сказал, что ровно наоборот, броней надо защищать те места, где дырок нет, потому что это означает, что если пуля попала туда, то самолет на аэродром не вернулся. А те места, где дырки есть, они не так важны. Вот то, что мы делаем, это на самом деле прямая аналогия. Я не знаю, правда или нет, мне это тоже рассказали в качестве педагогической байки. Но в принципе то, что мы пытаемся делать - это в каком-то смысле прямая аналогия вот этой истории. Потому что у нас есть геномы разных живых существ, все время идет поток случайных изменений просто из-за ошибок при копировании, из-за каких-то химических изменений и дальше те места, которые трогать нельзя, они не меняются. Но если вы возьмете жизненноважный белок и начнете его менять, то скорее всего ничего хорошего не получится.

Александр Марков: То есть этот самолет не вернется.

Михаил Гельфанд: Этот самолет не вернется, не пройдет дальше первого клеточного деления или вырастет страшный уродец, который не доживет до 4 месяца, или даже доживет, но не будет потом. Жизненно важные гены трогать нельзя.

Ирина Лагунина

Руководитель специальных проектов Русской службы Радио Свобода

LaguninaI@rferl.org

Подписаться

Материалы по теме

Наука: что такое биоинформатика

Ссылки для упрощенного доступа

Социальные сети

Наука: что такое биоинформатика

Ирина Лагунина

Материалы по теме

Наука: что такое биоинформатика