Описание
За основу биоинформационного пайплайна взяты рекомендации института Броуда (GATK Best Practices на базе GATK4) для поиска герминальных и соматических мутаций с применением стандартов гармонизации алгоритмов из проекта Centers for Common Disease Genomics – использование валидированных научным сообществом подходов обеспечивает высокие показатели чувствительности и специфичности проводимого анализа. Схема универсального конвейера для версий генома hg19/hg38 представлена на рисунке:
Пайплайн построен по модульному принципу с использованием общих вычислительных блоков для облегчения внесения изменений в алгоритмы и контроля версий.
Вычислительный конвейер автоматически подстраивается под размер входных файлов и распределяет нагрузку по необходимому числу контейнеров, что дает возможность быстро и эффективно обрабатывать данные любого размера - от таргетных панелей до экзомов и геномов. Каждый модуль выполняется в изолированном окружении с динамическим выделением ресурсов, требуемых для обработки загруженного набора файлов, а облачная среда снимает ограничения на количество одновременно анализируемых образцов.
Архитектура
Платформа seq24 спроектирована для максимальной масштабируемости алгоритмов обработки геномных данных. Современные решения из мира Big Data (технологии Apache Spark и Kubernetes) распареллеливают вычисления пайплайна BWA/GATK4 и ускоряют ресурсоемкие этапы картирования и поиска вариантов, а облачный подход обеспечивает эластичность при росте нагрузки, предоставляя необходимое количество ресурсов (до 4096 вычислительных ядер CPU).
Точность
Внедрение в практику экзомного и геномного секвенирования остро поставило вопрос аналитических характеристик используемых методов. Для правильной интерпретации результата теста важно иметь информацию о его точности, чувствительности и специфичности. К сожалению, из-за сложности NGS-секвенирования этот вопрос далек от окончательного решения, но научное сообщество предприняло ряд усилий для характеризации методик. В рамках проекта Genome in a Bottle на нескольких платформах были отсеквенированы эталонные клеточные линии от добровольцев, данные секвенирования объединили для получения кросс-валидированных высокодостоверных наборов вариантов, с которыми можно сравнивать результаты работы пайплайнов, подробнее о методике проведения сравнительных измерений референсного образца GiaB/NIST NA12878/HG001 с помощью пайплайна seq24 можно прочитать по ссылке. Целевым параметром оптимизации пайплайна был показатель чувствительности (Recall) при сохранении высокого уровня PPV (Precision).
Производительность
Ниже представлена таблица сравнения вычислительных ресурсов различных секвенаторов и облачного решения. Для NovaSeq 6000 указаны характеристики управляющего компьютера, так как обработка данных полностью перенесена в Illumina BaseSpace. Для облака указаны пиковые значения. Данные взяты из официальных спецификаций.
Прибор | Процессор | Частота | Дата выпуска CPU | CPU | RAM | Время анализа для BWA/GATK |
---|---|---|---|---|---|---|
MiniSeq | Intel Core i7-4700EQ | 2.40 GHz | 2013 | 4 | 16 Гб | - |
MiSeq | Intel Core i7-2710QE | 2.10 GHz | 2011 | 4 | 16 Гб | - |
HiSeq 1000 | Dual Intel Xeon X5560 | 2.30 GHz | 2009 | 8 | 48 Гб | - |
HiSeq 1500/2000 | Dual Intel Xeon E5-2630 | 2.30 GHz | 2012 | 12 | 64 Гб | - |
HiSeq 2500 | Dual Intel Xeon E5-2620 | 2.00 GHz | 2012 | 12 | 64 Гб | - |
NextSeq 500/550 | Dual Intel Xeon ES-2448L | 1.80 GHz | 2012 | 16 | 96 Гб | более 45 часов |
HiSeq 3000/4000/X | Dual Intel Xeon 5-2697 v2 | 2.70 GHz | 2013 | 24 | 128 Гб | более 38 часов |
NovaSeq 6000 | Intel Core i7-4700EQ | 2.40 GHz | 2013 | 4 | 16 Гб | - |
Облако seq24 | Intel Xeon Cascade Lake | 2.6/3.8 GHz | 2019 | до 4096 | 8 192 Гб | менее 4 часов |
Сравнение времени обработки референсного образца GiaB/NIST NA12878/HG001 (Illumina HiSeq, Nextera Expanded Exome, набор файлов FASTQ общим размером 16 Гб доступен по ссылке) с помощью локального сервера и облачной платформы seq24. Большое время обработки на локальном сервере обусловлено тем, что инструмент HaplotypeCaller из набора GATK4 всегда работает в однопоточном режиме (несколько потоков использует только алгоритм PairHMM) и не может максимально эффективно загрузить все доступные процессорные мощности без применения кластерных/облачных технологий. Подробнее о методах параллелизации вычислений можно прочитать по ссылке.
Тип анализа | Пайплайн BWA/GATK4 | Сервер 16 CPU, 64 Гб | Облако seq24 |
---|---|---|---|
Без аннотирования | Adapter trimming, BWA-MEM, Dedup, BQSR, HaplotypeCaller, CNN filtering, Hard filtering, метрики качества, оценка покрытия по экзонам | 52ч 17м | 3ч 11м |
С аннотированием | + аннотирование по 17 базам данных | 53ч 04м | 3ч 40м |