Ученые из МФТИ и МГУ под руководством Яна Иваненкова впервые разработали компьютерную модель, позволяющую предсказывать агрохимическую активность — наличие полезного воздействия на растения — простых молекул. С использованием независимого тестового набора и результатов собственного исследования было показано, что модель обладает высокой предсказательной способностью. Работа опубликована в научном журнале Phytochemistry.
Для построения модели авторы применили методы машинного обучения, в частности — самоорганизующиеся карты Кохонена. В качестве обучающей выборки использовалась уникальная выборка, включающая 1800 тщательно отобранных известных агрохимикатов. В качестве источников информации авторы использовали патенты, научные публикации и специализированные базы данных. Важно отметить, что модель также способна прогнозировать класс активности молекул (какое именно воздействие на растение она будет оказывать), причем с довольно высокой точностью — 87%, и предсказывать активность молекулы с точностью 67%.
В своей работе авторы для моделирования использовали представление химического пространства, в котором каждая молекула описывается набором особых параметров — молекулярных дескрипторов. Значение такого дескриптора отражает особое свойство молекулы — растворимость, размер, площадь полярной поверхности и т.д. Каждая молекула в химическом пространстве задаётся (кодируется) набором таких параметров, как точка — своими координатами на плоскости.
С использованием алгоритма Кохонена без учителя можно уменьшить размерность этих данных с наименьшей ошибкой (этот этап назвается обучением алгоритма) и визуализировать результат в виде удобной для анализа двумерной карты, на которой можно поочередно выделить области, занимаемые молекулами из различных категорий. Тогда по этой карте можно оценить классификационную способность модели. Если эта способность высока (например, для подобных масштабных задач это больше 70%), то модель можно протестировать с использованием независимого тестового набора молекул, которые не принимали участие в обучении. Именно это и сделали авторы работы, наглядно продемонстрировав, что их модель способна прогнозировать специфическую активность новых молекул, относя их к одной из общепринятых категорий: гербициды, регуляторы роста растений и т.п.
«Важно отметить, что разработанная модель обладает хорошей дифференциальной прогностической способностью и является первой в области агрохимии, построенной с использованием такой представительной обучающей выборки. В ходе работы нам совместно с коллегами из Лаборатории разработки инновационных лекарственных средств удалось протестировать модель с использованием результатов реального тестирования, осуществленного нами. В дальнейшем мы планируем расширить обучающую выборку и повысить прогностическую способность модели, возможно с применением других алгоритмов машинного обучения» —
комментирует основные результаты работы и дальнейшие планы Ян Иваненков, главный автор статьи и заведующий Лабораторией медицинской химии и биоинформатики МФТИ.
В будущем подобные вычислительные модели позволят значительно удешевить поиск новых активных молекул и внесут свой вклад в понимание механизмов их действия.