Кажется, в наше время строгая типология наук просто перестала существовать. Научные подходы и инструменты исследования становятся в полном смысле междисциплинарными — стираются границы между химией, физикой, информатикой, математикой, биологией и медициной. Об этих удивительных метаморфозах, а также о том, что такое «системная биология», мы поговорили с профессором РАН, заведующим лабораторией трансляционной геномной биоинформатики МФТИ Антоном Буздиным.
— Как называется ваша лаборатория и какую роль математики, информатики и кибернетики в ней играют?
— Мы называемся вот как: лаборатория трансляционной геномной биоинформатики. «Трансляционной» в данном смысле означает, что ее задача использовать научные биоинформатические достижения для решения практических задач.
— Задач для человека, или для растений, или все равно для чего?
— Для всего! Как вы знаете, есть такие стволовые клетки в организме, которые могут дать любые другие в качестве потомства, а те уже дифференцируются и становятся клетками одного типа. Потом они дают только клетки такого же типа. Вот мы стараемся оставаться как бы «стволовыми».
Основная наша точка приложения — медицина, а если точнее, онкология. Мы довольно успешно разрабатываем новые инструменты для того, чтобы облегчать жизнь онкобольных, чтобы персонализированно назначать им лечение
Методы, которые мы разрабатываем, применимы, в том числе, и для биотехнологий растений. Было бы желание и средства их применить, возможности найдутся.Текущих проектов по продовольственной безопасности у нас сейчас нет, хотя мы могли бы предложить ряд решений на основе такой области науки, как системная биология. Мы очень любим системную биологию, которая связывает все процессы в некую единую сеть, в сумасшедшую многомерную паутину. Если попытаться визуализировать эту сеть, то человеку ее невозможно даже представить. Нужно на самых разных уровнях количественно охарактеризовать все процессы, происходящие сначала в живой клетке, а следом в ткани, в органе, во всем организме. Такую модель можно построить для каждого организма, будь то бактерия, картофель, курица или человек. В такой сети все оказывается связанным со всем.
Допустим, мы задали такую очень сложную систему, которая математически описывается в виде достаточно сложного графа. Эта сеть одновременно является и моделью. Глядя на нее, мы можем моделировать, что произойдет, если активировать или, наоборот, подавить какой-то из ее элементов. Что произошло? Что случится следом? Получаются миллионы смоделированных исходов, которые можно анализировать и сравнивать. В результате, например, можно понять, какие качества нужно усилить, а какие ослабить, чтобы, например, некое растение приобрело новые функции.
— Это похоже на технооптимизм конца XIX — начала ХХ века.
— Так технооптимизм полностью себя оправдал. Все же сбылось. Мы живем в фантастическом мире, мы переплюнули Жюля Верна. Единственное, в чем он в корне оказался неправ, — что в центре, в глубине Земли, есть пустоты. Он руководствовался неверной теорией. Сейчас очевидно, что пустот там нет, там очень высокое давление. Но за этими объяснениями лучше обратиться к геофизикам. А так наша реальность уже давно переплюнула все фантастические рассказы прошлого, вплоть до невидимости. Сейчас есть материалы с отрицательными коэффициентами преломления.
Мы живем в фантастическом мире, мы переплюнули Жюля Верна
— Давайте еще немного поговорим о вашей лаборатории. Как она сформировалась?
— Хороший вопрос. Очень полезно время от времени над такими вещами задумываться.
Мой старый друг и коллега по Институту биоорганической химии Денис Владимирович Кузьмин, который сейчас возглавляет нашу Физтех-школу биологической и медицинской физики, сообщил, что в МФТИ объявлен конкурс на новую лабораторию. Мне захотелось поучаствовать, потому что я уже давно сотрудничал с Физтехом. Сам я не выпускник Физтеха, но у меня были студенты с Физтеха, некоторые из них потом стали кандидатами наук. Кроме того, я читал и продолжаю читать лекции на Физтехе.
И знаю высокий уровень студентов МФТИ, их целеустремленность, которая тоже очень важна — это такой стандарт, что ли. Даже можно сказать амбициозность, когда стыдно ударить в грязь лицом, и поэтому студент стремится свой проект довести до успеха.
Перед собой я видел творческое дело. Нужно было усилить, конечно, IT-компонент, связанный с машинным обучением. Сейчас уже почти не говорят про машинное обучение, говорят об искусственном интеллекте, хотя все это, в общем-то, об одном. И мне очень хотелось продвинуться в области системной биологии. В общем, я с удовольствием решил поучаствовать в этом конкурсе.
— Если вашей лаборатории выдали бы некий карт-бланш, неограниченное финансирование, что бы вы стали делать?
— Мы бы, конечно же, сразу начали собирать всевозможные большие данные в биомедицине и создавать масштабные модели всего на больших выборках, применяя модели машинного обучения. Мы бы искали закономерности, которые были бы связаны с широчайшим кругом вещей, применимых в реальной жизни. Искусственный интеллект и большие данные в биологии, биотехнологии и медицине. При этом мы бы обязательно занимались и сервисами, то есть свои наработки мы бы предлагали рынку. Да и науке тоже, конечно же. Обязательно была бы сильна медицинская компонента.
Для начала мы бы оцифровали все медицинские базы, которые разрозненны, которые имеются в разных форматах. Врачи со мной согласятся: как бы ни была хороша медицинская база в тот момент, когда ее демонстрируют делегациям, на самом деле огромное количество значимых факторов еще очень плохо оцифровано. Присутствуют и ошибки. Бывают такие варианты, когда одно и то же имеет двадцать разных названий. Никакой поиск по таким вводным осуществить невозможно. Встречаются пропущенные буквы в фамилиях, перепутанные инициалы и так далее. Кто-то не прикрепил нужный документ. Все это надо искать. Хорошо, если такие ошибки составляет малую часть базы, но обычно их очень много. А по сути, такая информация была бы бесценна, потому что огромное количество факторов, которые можно было бы выудить из объединенных баз, позволили бы обнаружить ныне еще не известные ассоциации между клиническими особенностями и, например, молекулярными или социальными факторами и так далее. Мы бы увидели огромное количество новых взаимосвязей, которые бы позволили сформировать совершенно новое видение групп риска и давать более точные рекомендации по образу жизни для тех или иных групп пациентов.
Такой масштабный анализ позволил бы принести пользу здравоохранению просто путем оцифровки уже имеющихся репозиториев.
Следующий шаг при неограниченном финансировании — заняться молекулярным профилированием. Иногда пациентам дают какие-то лекарства, а пациент на них либо отвечает, либо нет, и непонятно, почему. Нужно разработать маркеры ответа или неответа на терапию. Таких схем лечения, где пациенты остро нуждаются в диагностических решениях, огромное множество.
Если помечтать, то нам хотелось бы, конечно, двигаться широким фронтом.
Ну, мне кажется, на первые 50 лет достаточно.
— Насколько важна роль биоинформатики в медицине?
— Медицина — это та отрасль, где необходимость биоинформатики очевидна. В то же время медицина довольно капитализированная область. Соответственно, здесь биоинформатики могут заработать деньги. Плюс, конечно, социальная значимость — всем хочется сделать мир лучше. Поэтому в нашей лаборатории такой приоритет у медицины.
Мы в разговоре уже коснулись онкологии, но я имею в виду не только ее. Есть сердечно-сосудистые заболевания, есть эндокринные. Например, диабет. Есть нейро-дегенеративные. В какой орган ни ткни, всюду есть нерешенные проблемы.
Всегда есть группы пациентов, которые на лечение не отвечают, и другие, которые отвечают. Вопрос: почему?
Возьмем, например, ковид. Это особо сложный объект, потому что он свое влияние на нас уже в ходе эпидемии менял, как минимум, пять раз. То есть тот ковид, который пришел в мир то ли из летучих мышей, то ли из пробирки в Ухани, входил в клетки пациента одним образом. Тот ковид, который в Италии развился, уже делал это немножко по-другому. Дальше было много-много-много волн, в ходе которых белки ковида, которые отвечают за связывание с клетками, мутировали. Сейчас ковид вообще входит в другие клеточные типы относительно того, как было сначала, и ведет себя совершенно по-другому.
В какой орган ни ткни, всюду есть нерешенные проблемы
Мы, конечно, будем делать модели, но наши модели всегда будут запаздывать, поэтому здесь приоритет у экспериментальной науки. Когда экспериментальная наука скармливает нам данные, мы можем, основываясь на них, построить модель: как текущий штамм, который поймали с поличным, работает и как его можно прижучить. Но это не значит, что завтра не появится новый штамм, который будет все делать по-другому и для которого все наши наукоемкие способы лечения будут как мертвому припарки.
Иными словами, в случае с инфекционными агентами, которые быстро мутируют, предсказать то, что они нам преподнесут, практически невозможно. Можно, конечно, подключить, искусственный интеллект, чтобы моделировал миллиарды, триллионы и так далее, кто какие слова знает, разных вероятностей, но вряд ли это будет по-настоящему информативно.
— В чем уникальность вашей лаборатории для России?
— Здесь у нас на Физтехе есть замечательные биоинформатики, и мы вовсе не являемся единственными носителями какого-то сокровенного знания или некими жрецами, которые несут свет. Тут очень много талантливых ученых-биоинформатиков. Мы просто одни из.
Мой опыт показывает, что у нас хорошее образование. Оно позволяет нашим студентам находить себя в лидирующих коллективах, будь то компании или научные организации. Они очень востребованы в силу своей подготовки и трудоспособности.
Если говорить про наше место в мире, то скажу так. Юлий Цезарь, как вы помните, определял центр мира как то место, куда воткнуты его орлы, то есть боевые знамена его легиона. Я стараюсь этому следовать. Центр мира я определяю для себя там, где мы находимся, где мы работаем и творим. Мы идем не от конкуренции, а от задачи. Когда есть задача, мы ее пытаемся решить, причем решить лучше всех в мире. Конечно же, применяя те методы, которые зачастую в мире уже разработаны, но у нас задача сделать лучше.
Если говорить про международные связи, то несмотря на текущую геополитику, связи остаются, и мы даже получаем признание международного сообщества. В частности, ко мне обратились из самого престижного научного издательства «Эльзевир» (Elsevier) с предложением написать две книги. Одну по анализу молекулярных путей, это вот та самая системная биология, про которую мы говорили. Это будет первая в мире книга в этой области. Считаю это предложение непосредственным признанием того вклада, который наша лаборатория внесла, нашей лидирующей роли в этой области.
Здесь я просто обязан упомянуть Николая Михайловича Борисова, доктора наук, который сейчас, к сожалению, покинул страну, но его вклад был бесценен в разработке тех концепций, которые мы сейчас развиваем. Он автор нескольких глав в этой книге.
Другая книга будет посвящена еще более широкой области — транскриптомике. Как ни странно, это тоже первая в мире книга по транскриптомике, науке, которая анализирует РНК. Это очень сложный мир. В нем используется много методов и много всего полезного можно вытащить. «Книга по практической трансляционной транскриптомике» — так мы ее назвали.
— Какие достижения есть у вашей лаборатории в практической сфере?
— Мы разработали математический алгоритм, который позволяет по результатам молекулярного тестирования подбирать терапию онкобольным. Он называется Oncobox.
Нам удалось провести клиническое испытание на раковых больных. Мы сравнили группу пациентов, которые получали терапию согласно рекомендациям Oncobox, и контрольную группу, которой врачи давали терапию без использования алгоритма. В первом случае получился объективный ответ на терапию более чем в трех четвертях случаев. В основном речь идет о третьей стадии, в том числе, и о метастатической болезни, а в контрольной группе только в половине случаев.
То же самое касалось и продолжительности ответа. В группе пациентов последней стадии, которых лечат согласно нашему алгоритму, ответ приблизительно на 10 месяцев больше, чем в контрольной группе. Это очень серьезный результат, которым мы очень гордимся.
Даже в рамках нашего тестирования большое количество пациентов прожили дольше. Если внедрить этот алгоритм широко, то результат будет еще более значимым.
Кроме того, есть еще ряд достижений, но они, скорее, понятны специалистам в нашей области. Они касаются методологии. Например, мы открыли новый тип молекулярных маркеров.
Раньше в качестве маркеров рассматривали единичные гены или какие-то их группы. Например, есть некое патологическое состояние, и нужен молекулярный маркер. Есть гены, которые по отдельности довольно слабые маркеры, но если их объединить в так называемую подпись или, как сейчас многие говорят, сигнатуру, это работает лучше, чем каждый из этих генов по отдельности.
Нам удалось открыть новый тип молекулярных маркеров, который основывается на молекулярных путях, потому что генные продукты, работают не поодиночке, а в коллективе. Чтобы осуществить какую-то молекулярную функцию, им нужно скоординированно работать. И вот все те маркеры, которые скоординированно работают, и представляют собой молекулярные пути. А молекулярные пути, если брать их как маркер, работают гораздо лучше, чем единичные гены. Причем как на уровне работы генов, так и на уровне их структуры.
Еще мы придумали новый способ описывать функциональные аннотации этих молекулярных путей.
Дело в том, что у одного только человека молекулярных путей очень много, многие тысячи. Понять, какие компоненты молекулярного пути какую роль играют, описать их — очень сложно! Если это делать вручную, то быстро сойдешь с ума и плюнешь на все.
Мы первые в мире, кто придумал, как это сделать алгоритмически. Мы описали функциональные роли более чем для 50 тысяч молекулярных путей человека, создали самую полную базу таких молекулярных путей. Мы научились, что самое важное, первыми в мире их считать и анализировать, то есть понимать, насколько они активны или, наоборот, насколько они подавлены, например, в одной группе по сравнению с другой. Такое знание позволяет ответить на огромное количество вопросов начиная от персонализации терапии и заканчивая разработками новых лекарств.
Более того, мы создали как бы интерактомную модель человека и изобрели новую концепцию. Это тоже из области системной биологии.
Интерактом представляет собой комплекс всех взаимодействующих молекул. Понятно, что мы не можем сделать модель, где будут присутствовать действительно все взаимодействующие молекулы, но взаимодействие тех, которые достоверно качественно и даже количественно измерены, мы можем включить в единую так называемую интерактомную модель. Основываясь на ней, мы провели алгоритмическое разбиение на молекулярные пути. Раньше ученые сами вручную их конструировали, но это чревато ошибками, а алгоритмически сконструированные молекулярные пути генерируются непредвзято. Это мы тоже сделали первыми. Сконструированные нами молекулярные пути себя отлично показали как маркёры, фактически как индикаторные лампочки. Таким образом, появился новый инструмент.
— Кем вы себя больше ощущаете: биологом или информатиком?
— Ощущаю себя в нескольких ипостасях. И вы назвали только две, а их, пожалуй, больше. Тут перечислено далеко не все. Я себя ощущаю биологом, безусловно, да; биоинформатиком тоже да; но еще и менеджером, бухгалтером, даже письмоводителем, наверное. И, конечно, тут еще медицинская часть не затронута. Потому что я ощущаю себя еще и человеком, который занимается медицинской диагностикой. Есть еще много других всяких полутонов, но этого уже достаточно, мне кажется.
— Какое образование нужно иметь, чтобы одновременно заниматься медициной, биоинформатикой, биологией?
— Здесь от меня трудно получить абсолютную исчерпывающую информацию. Если собираетесь заниматься медициной, именно клинической, то, конечно, нужно медицинское образование. Но у меня нет клинического образования. Я, собственно говоря, поэтому занимаюсь скорее диагностической частью. Мы просто стремимся быть «полезными клинически» клиницистам, прежде всего клиническим онкологам.
У меня образование — биологический факультет МГУ, кафедра молекулярной биологии. Еще есть аспирантура Института биоорганической химии РАН. Это школа двух выдающихся ученых. Первый — один из наших основных ученых в области геномики академик Евгений Давидович Свердлов, а другой — один из наших самых сильных ученых в области белковой химии Валентин Михайлович Степанов. Он, увы, давно умер, но очень многому меня научил. Это два моих главных учителя. Ну и, конечно, те замечательные команды, которые формировались и в том, и в другом коллективе. Вот таким образом, наверное, сформировался мой научный «скелет».
Потом началась самостоятельная жизнь, в которой я уже самостоятельно получил некоторое дополнительное образование. Образование в области стартап-предпринимательства я получил в США в стартап-акселераторе YCombinator. Это очень престижное образование. Наша группа была единственной из бывшего СССР, кто с биомедицинским проектом выиграл там учебу. Дело было в Калифорнии, в Кремниевой долине.
Но это я говорю про себя и про свое образование, а если говорить абстрактно, то, конечно, для занятий биоинформатикой нужны хорошие знания в области статистики и математики. Статистика обязательно нужна, но я не могу давать какие-то универсальные рецепты, потому что биоинформатика — область очень широкая. Внутри этой области есть разные направления. Скажем, в рамках одного из них биоинформатика обслуживает задачи, возникающие у специалистов неких смежных областей. Например, есть такая-то лаборатория, такой-то коллектив, и у них есть определенная задача. Им нужно, чтобы кто-то обработал большой массив данных. Соответственно, они ищут тех, кто им это сделает. Они могут связаться с биоинформатиками, и те им помогут с этой задачей справиться. Потом биоинформатики исчезнут, а коллектив займется какими-то следующими проблемами. Это такая служебная «утилита» — решение чужих конкретных задач.
Еще биоинформатика может выступать в качестве самостоятельной науки, где она сама непосредственно формирует задачи исследования. Эта компонента тоже крайне сильна, и она усиливается все больше и больше, потому что объемы самых разных данных, связанных с биологией и с медициной, растут экспоненциально. Эти данные удваиваются каждые два-три года, если не быстрее. Если раньше биоинформатика, не хочу сказать, паразитировала, но обслуживала какие-то эксперименты и какие-то лаборатории, то теперь этих экспериментов уже столько сделано, что встала проблема разыскать все однотипные данные, собрать их из разных источников, сравнить и получить какую-то ценную информацию из этого сравнения.
Почему это очень важно? Потому что размер выборок увеличился на порядки, в сто тысяч, в десятки тысяч раз относительно того, как это было, например, десять лет назад. Возросла и точность предсказаний, и, соответственно, значимость всех этих исследований. Соответственно, нужны специалисты, которые могут хорошо ставить задачу, грамотно осуществлять навигацию внутри данных, понимать, что с чем можно сравнивать, а что нельзя,чему можно верить, чему нет.
Достигают успеха те, кто понимает, как отличить истинный результат от ошибки, кто правильно использует статистические подходы. Образование при этом может быть самое разное. Но магистральным направлением для биоинформатика, если вышеперечисленное каким-то образом обвязать, станет углубленное математическое образование и желательно, чтобы было какое-то понятие относительно методов программирования.
— При биологической базе?
— Биологическая база тоже обязательно нужна, да. Обязательно нужно понимание того, как получаются те данные, с которыми люди работают. Часто бывает так: человек приходит из чисто математического или IT-мира и при обработке совершает ошибки просто потому, что не понимает, как эти данные получены. Он либо возводит в абсолют какие-то вещи, которые на самом деле могут содержать в себе ошибки, либо применяет математически обусловленные критерии, которые на самом деле оказываются неприменимы вот именно к данной конкретной биологической задаче, или не учитывает контекст.
Поэтому, конечно, в идеале, должен быть такой человек-оркестр, который разбирается хотя бы немного во всех этих отраслях: в биологии, математике и программировании. И конечно же, если мы говорим про работу в медицине, то нужно образование и в этой области тоже.
— Чего вам не хватает?
— Не хватает познаний в IT. Это очень быстро эволюционирующая область. Нужны знания IT-инструментов, программирования, инструментов, связанных с работой с искусственным интеллектом, его применение для создания программ. Здесь требуется существенно больше опыта и экспертизы.
— Вы имеете в виду чисто инструментальные вещи или более глубинное понимание? Закономерности, как это работает?
— Все вместе. Количество в качество всегда переходит. Не хватает знаний, новых методов. Новые методы на то и новые, что на момент их появления про них никто не знает. Чем раньше ты понял, какой новый метод будет перспективным и максимально облегчит тебе работу, тем больше времени ты выиграешь, тем эффективнее решишь свои задачи, тем больше преуспеешь.
При поддержке гранта Минобрнауки России в рамках федерального проекта «Популяризация науки и технологий» № 075-15-2024-571 и всемерной поддержке Физтех-Союза.