Ученые из Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ разработали программный пакет Knodle для определения связей и степени связи в молекулах. Эта компьютерная программа упрощает один из этапов разработки новых лекарств. Статья опубликова на в журнале Chemical Information and Modeling.
Представьте, что вы хотите создать лекарство. Разработку лекарственных препаратов с заранее заданными свойствами называют драг-дизайном. Лекарство, попав в организм человека, должно воздействовать на причину болезни. На молекулярном уровне это нарушение работы каких-то белков и генов их кодирующих. В драг-дизайне это называют мишенью. Если лекарство противовирусное, то оно должно как-то мешать вирусам встраивать свой геном в человеческий. Тогда мишенью будет уже белок вируса. Структура встраивающегося белка вируса известна, и даже известно, какое место у него самое важное – сайт связывания. Если вставить в это место, в сайт связывания, «затычку» в виде определенной молекулы химического соединения, то белок не сможет “вживиться” в геном человека, и вирус умрет. Получается, находишь «затычку» – будет у тебя лекарство от болезни.
Но как найти нужные молекулы? Исследователям здесь на помощь приходят огромные базы веществ. Для отбора берутся специальные программы, которые используя приближения квантовой химии оценивают место и силу с которой сможет прицепиться молекула-«затычка» к белку. Но оказывается, что в базах есть только форма вещества, а для адекватной оценки этим программам требуется еще и информация о состоянии всех атомов и соединений в молекуле. Задачей определения этих состояний и занимается разработанная исследователями компьютерная система Knodle. С помощью новых технологий можно сузить область поиска с сотен тысяч веществ всего до сотни. Эту сотню уже проверить и получить, например, Ралтегравир — лекарство, с 2011 года активно используемое для профилактики ВИЧ.
Со школы все привыкли видеть органические вещества как буквы с палочками (структура вещества) и также понимать, что на самом деле никаких палочек нет. Ведь каждая палочка — это связь электронов, которые подчиняются законам квантовой химии. В случае одной простой молекулы, вроде такой как в иллюстрации к статье, опытный химик интуитивно чувствует, какие должны быть гибридизации (со сколькими соседними атомами он соединен), и за несколько часов кропотливой работы со справочниками сможет восстановить в ней все связи. Он может это делать, потому что видел сотни и сотни похожих соединений и знает, что если кислород — «вот так вот торчит» — то скорее всего он связан двойной связью. В своей работе аспирантка МФТИ Мария Кадукова и научный сотрудник лаборатории структурной биологии рецепторов, сопряженных с G белком, МФТИ Сергей Грудинин решили доверить эту интуицию компьютеру, используя для этого технологии машинного обучения.
Сравните «Твердый полый предмет с ручкой, отверстием сверху и удлинением сбоку, в конце которого тоже отверстие» и «Сосуд для приготовления чая». И то и другое достаточно хорошо определяет, что такое чайник, но второе объяснение проще и в него больше верится. Так же и в машинном обучении, самый лучший алгоритм обучения — это самый простой из работающих. Поэтому исследователи выбрали нелинейный метод опорных векторов (SVM), метод, который себя зарекомендовал в распознавании рукописного текста и изображений. На вход ему давали расположения соседних атомов, а на выходе получали гибридизацию.
Хорошее обучение требует множество примеров, и ученые составили их из 7605 соединений с известной структурой и состояниями атомов. «В этом кроется решающая сила разработанного пакета, так как при обучении на большей базе результат распознавания лучше. Сейчас Knodle находится на шаг впереди подобных себе программ: он допускает всего 3.9% ошибок, тогда как ближайший конкурент 4.7%», — объясняет Мария Кадукова.
И это не единственное преимущество. Программный комплекс легко изменять под конкретную задачу. Например, в данный момент Knodle не работает с веществами, содержащими металлы, потому что эти соединения относительно редки. Но если окажется, что лекарство от Альцгеймера будет заметно эффективней, если в нем будет металл, то для адаптации программы потребуется лишь набрать базу с металлическими соединениями. Поэтому остается только догадываться, для какой неизлечимой на данный момент болезни найдут лекарство, используя этот инструмент.