С момента расшифровки генома человека появились области биологии, изучающие данные, связанные с генетической информацией и ее реализацией на различных уровнях. В организме генетическая информация хранится в виде ДНК, и весь этот массив размером в 3 миллиарда пар нуклеотидов делится на участки — гены. Для передачи информации от конкретного гена и для последующего синтеза белка в качестве посредника используются молекулы РНК. Совокупность всех генов называется геномом. Полный набор РНК клетки — транскриптом (так как процесс синтеза РНК на матрице ДНК называется транскрипцией), а весь состав белков, характерный в конкретный момент для клетки, — протеом.
..омные данные
В марте этого года в МФТИ открылась новая лаборатория трансляционной геномной биоинформатики. Сотрудники лаборатории занимаются анализом геномных, транскриптомных и протеомных данных для последующего применения в лечении хронических и онкологических заболеваний. На первый взгляд это может показаться странным: зачем заниматься анализом биологических данных в МФТИ? Дело в том, что объемы данных, связанные с генетической информацией человека, действительно большие. Если расшифровка 50 генов «весит» примерно 100 МБ, то полная кодирующая последовательность генома уже займет 20 ГБ. Для работы в этой области недостаточно биологического образования, современный ученый должен быть разносторонним специалистом. На это указывает и состав лаборатории, объединяющий людей как с биологическим, так и с техническим образованием.
Все эти «омиксные» данные являются «большими данными». Этот термин был введен 2000-е годы. Что же имеется в виду под этим понятием? Если грубо, то это огромный набор информации, который не может поместиться на одном жестком диске и должен храниться раздельно. Описывая big data, формулируют три больших «V». Первая V — это объем данных (volume). Вторая — скорость (velocity). Так как невозможно собрать всю информацию на одном компьютере в одно время, нет возможности накопить и обработать сразу все. Данные должны обрабатываться по частям и с высокой скоростью. И третья «V» — разнообразие (variety). Наконец, эти данные очень разнородные. Собранные в разных форматах, хранящиеся в разных местах, полученных по разным методикам, с разной степенью достоверности и т. д. Приходится это все обрабатывать и просчитывать, разрабатывать алгоритмы для решения подобных задач.
Анамнез гена
Возникновение и патогенез большинства заболеваний (в том числе и онкологических) связаны с генетикой. Уже десятки лет ученые ищут закономерности, которые влияют на развитие того или иного процесса. Данные разработки могут идти на разных уровнях. Можно сравнивать геномы здоровых и больных людей. Однако этой информации не всегда достаточно, так как по ней нельзя определить состав и концентрацию белков в интересующих образцах, а это не позволит найти патологически регулируемые процессы. Но зато транскриптом, включающий полную совокупность клеточных РНК, стоит гораздо ближе к фенотипу и позволяет точнее определить количественный профиль наработки белков и лучше отображает состояние клетки, ткани и органа.
К настоящему времени уже получены транскриптомы для миллионов объектов. Тем не менее нужно уметь не только получать данные, но и анализировать и сравнивать их. Эксперименты не унифицированы, проводятся с помощью разных методик и наборов реактивов, что сильно усложняет сравнение. Поэтому одним из направлений работы лаборатории является создание первой системы универсализации и сравнения транскриптомных данных (BLAST для транскриптомов).
Антон Буздин, заведующий лабораторией трансляционной геномной биоинформатики МФТИ:
– Мы хотим первыми создать технологию прямого сравнения миллионов транскриптомов, полученных самыми разными способами. Это, например, позволит выявить общие черты между разными патологиями и предложить новые способы их лечения.
Биомаркеры
В лаборатории занимаются и анализом молекулярных путей и использованием машинного обучения для создания биомаркеров нового поколения. Эта область важна в первую очередь тем, что раковые клетки сильно отличаются от здоровых клеток регуляцией очень многих клеточных процессов, за что отвечают тысячи внутриклеточных молекулярных путей. Большая часть аномально активированных процессов в опухолевых клетках связана с ростом и размножением. Ученые занимаются поиском молекулярных путей, активность которых связана с прогнозом ответа раковой опухоли на лечение. По транскриптомным данным можно провести количественный анализ и понять, активированы или подавлены выбранные молекулярные пути, а также предсказать реакцию на используемые противораковые препараты. Таким образом, можно составить рейтинг оценки их эффективности, что может использоваться врачом при назначении терапии. Это не только позволяет предсказать эффективность лечения еще до его применения — в некоторых случаях выбирается альтернативный препарат, который не был бы рассмотрен без этой дополнительной информации.
Персональное лечение
Ученые используют транскриптомные данные для разработки персонализированного подхода в лечении онкобольных. Слабое сходство между разными опухолями и их индивидуальные особенности могут перестать быть проклятьем онкологии, став источником подбираемых индивидуально терапевтических комбинаций. Сравнение отдельных профилей экспрессии РНК позволяет предсказать статус ответа для больного и назначить эффективное лечение. Одна из компаний, проводящих коммерческие генетические исследования для проведения персонализированного лечения, — Oncobox является партнером лаборатории. Пока что результаты обработки транскриптомов используются в клинике только для тяжелых и неопределенных случаев, где стандартное лечение не дает нужного результата. Проходящее при участии команды физтеха клиническое испытание РНК-маркеров нового поколения выявило статистически достоверное преимущество такого подхода перед традиционными способами назначения терапии больным с тяжелыми формами рака. При назначении, сделанном на основе РНК-тестов Oncobox, контроль над болезнью достигался в 76% случаев, а при стандартных способах этот показатель составлял только 50%. «Похоже, что мы являемся одними из мировых лидеров в данной области. Математика действительно может помочь смоделировать персональные линии терапии. Теперь мы хотим объединить транскриптомику и глубокий анализ мутаций в опухоли для того, чтобы сделать лечение еще более эффективным», — заключает Антон Буздин.