Вычислительный конвейер

Описание

За основу биоинформационного пайплайна взяты рекомендации института Броуда (GATK Best Practices на базе GATK4) для поиска герминальных и соматических мутаций с применением стандартов гармонизации алгоритмов из проекта Centers for Common Disease Genomics – использование валидированных научным сообществом подходов обеспечивает высокие показатели чувствительности и специфичности проводимого анализа. Схема универсального конвейера для версий генома hg19/hg38 представлена на рисунке:

 

 

Пайплайн построен по модульному принципу с использованием общих вычислительных блоков для облегчения внесения изменений в алгоритмы и контроля версий.
Вычислительный конвейер автоматически подстраивается под размер входных файлов и распределяет нагрузку по необходимому числу контейнеров, что дает возможность быстро и эффективно обрабатывать данные любого размера - от таргетных панелей до экзомов и геномов. Каждый модуль выполняется в изолированном окружении с динамическим выделением ресурсов, требуемых для обработки загруженного набора файлов, а облачная среда снимает ограничения на количество одновременно анализируемых образцов.

 

Архитектура

Платформа seq24 спроектирована для максимальной масштабируемости алгоритмов обработки геномных данных. Современные решения из мира Big Data (технологии Apache Spark и Kubernetes) распареллеливают вычисления пайплайна BWA/GATK4 и ускоряют ресурсоемкие этапы картирования и поиска вариантов, а облачный подход обеспечивает эластичность при росте нагрузки, предоставляя необходимое количество ресурсов (до 4096 вычислительных ядер CPU).

 

Точность

Внедрение в практику экзомного и геномного секвенирования остро поставило вопрос аналитических характеристик используемых методов. Для правильной интерпретации результата теста важно иметь информацию о его точности, чувствительности и специфичности. К сожалению, из-за сложности NGS-секвенирования этот вопрос далек от окончательного решения, но научное сообщество предприняло ряд усилий для характеризации методик. В рамках проекта Genome in a Bottle на нескольких платформах были отсеквенированы эталонные клеточные линии от добровольцев, данные секвенирования объединили для получения кросс-валидированных высокодостоверных наборов вариантов, с которыми можно сравнивать результаты работы пайплайнов, подробнее о методике проведения сравнительных измерений референсного образца GiaB/NIST NA12878/HG001 с помощью пайплайна seq24 можно прочитать по ссылке. Целевым параметром оптимизации пайплайна был показатель чувствительности (Recall) при сохранении высокого уровня PPV (Precision).

 

Производительность

Ниже представлена таблица сравнения вычислительных ресурсов различных секвенаторов и облачного решения. Для NovaSeq 6000 указаны характеристики управляющего компьютера, так как обработка данных полностью перенесена в Illumina BaseSpace. Для облака указаны пиковые значения. Данные взяты из официальных спецификаций.

ПриборПроцессорЧастотаДата выпуска CPUCPURAMВремя анализа
для BWA/GATK
MiniSeqIntel Core i7-4700EQ2.40 GHz2013416 Гб-
MiSeqIntel Core i7-2710QE2.10 GHz2011416 Гб-
HiSeq 1000Dual Intel Xeon X55602.30 GHz2009848 Гб-
HiSeq 1500/2000Dual Intel Xeon E5-26302.30 GHz20121264 Гб-
HiSeq 2500Dual Intel Xeon E5-26202.00 GHz20121264 Гб-
NextSeq 500/550Dual Intel Xeon ES-2448L1.80 GHz20121696 Гбболее 45 часов
HiSeq 3000/4000/XDual Intel Xeon 5-2697 v22.70 GHz201324128 Гбболее 38 часов
NovaSeq 6000Intel Core i7-4700EQ2.40 GHz2013416 Гб-
Облако seq24Intel Xeon Cascade Lake2.6/3.8 GHz2019до 40968 192 Гбменее 4 часов

 

Сравнение времени обработки референсного образца GiaB/NIST NA12878/HG001 (Illumina HiSeq, Nextera Expanded Exome, набор файлов FASTQ общим размером 16 Гб доступен по ссылке) с помощью локального сервера и облачной платформы seq24. Большое время обработки на локальном сервере обусловлено тем, что инструмент HaplotypeCaller из набора GATK4 всегда работает в однопоточном режиме (несколько потоков использует только алгоритм PairHMM) и не может максимально эффективно загрузить все доступные процессорные мощности без применения кластерных/облачных технологий. Подробнее о методах параллелизации вычислений можно прочитать по ссылке.

Тип анализаПайплайн BWA/GATK4Сервер
16 CPU, 64 Гб
Облако seq24
Без аннотированияAdapter trimming, BWA-MEM, Dedup, BQSR, HaplotypeCaller, CNN filtering, Hard filtering,
метрики качества, оценка покрытия по экзонам
52ч 17м3ч 11м
С аннотированием+ аннотирование по 17 базам данных53ч 04м3ч 40м