Алгоритм успел показать и доказать свою актуальность — программу уже скачали более 1500 различных центров и лабораторий по всему миру. Характеристики программы показывают до 80% более высокие результаты по сравнению с другими алгоритмами.
Представленная разработка относится к области биоинформатики — дисциплины «на стыке наук». Биоинформатика — это набор методов математики. статистики и информатики, применяемых для исследования биологических молекул, таких как ДНК, РНК, белки. Популярность биоинформатики велика, и каждый ответ порождает столько новых вопросов, что ученые просто не успевают на них отвечать. Время специалистов, как и сами специалисты, ценится на вес золота. Именно поэтому автоматизация процессов — залог успеха любого биоинформатика, и подобные алгоритмы очень нужны для решения различных задач.
Одной из важных задач области является аннотация генома — определение того, с каких именно участков молекулы ДНК синтезируются белки или РНК — промежуточный носитель информации в клетке. Такие области — гены, представляют особый научный интерес. Дело в том, что для многих исследований нужна информация не обо всем геноме (длина которого составляет 2 метра только для одной клетки), а о наиболее его информативной части — генах. Выявление генов происходит на основе поиска характерных черт в молекулах, уже синтезированных с ДНК (такой синтез называется транскрипцией), либо по уже известным генам. Этот процесс осуществляется с помощью предсказательных алгоритмов.
Найти такие участки — нетривиальная задача, особенно в эукариотических организмах, к которым относятся практически все широко известные виды, кроме бактерий. Это происходит из-за того, что у таких клеток сложная передача наследственной информация. Дело в том, что не существует однозначного признака для определения того, является ли область кодирующей или нет.
Алгоритм показал высокую эффективность. Разработанную программу скачало уже более 1500 различных центров и лабораторий. Программа показала до 80% более высокую генную чувствительность, по сравнению с другими разработками и до 18% более высокую генную специфичность. Примерный хронометраж BRAKER1 составляет ∼17.5 часов для обучения и предсказания. Это впечатляющий результат, учитывая, что время может быть уменьшено за счет использования параллельных процессоров. В перспективе алгоритм поможет работать с задачами, требующими отделения кодирующих областей из общей массы подпоследовательностей еще быстрее, точнее и, в целом, эффективнее.
Подобные инструменты помогают реализовать множество различных задач. Например, уже опубликованы первые результаты глобального проекта «1000 геномов», запущенного в 2008 году при содействии 75 лабораторий и компаний. В результате были обнаружены последовательности редких генных вариантов — замен в генах, некоторые из которых приводят к болезням . При диагностике генетических заболеваний очень важно понимать, какие замены в участках генов приводят к возникновению болезней. В процессе проекта расшифровываются геномы различных людей, особенно кодирующие их части и выявляются редкие замены нуклеотидов. В будущем это поможет медикам диагностировать такие сложные заболевания, как болезни сердца, диабет и рак.