Точное обнаружение мутаций при секвенировании нового поколения (NGS) является основным требованием для применения этого метода в практической медицине, однако, серьезную проблему представляет собой низкая согласованность результатов между различными вариантами пайплайнов разных платформ секвенирования. За короткое время (2012-2020 гг.) биоинформационные подходы совершили качественный скачок в своем развитии, улучшив показатели чувствительности и специфичности с посредственных 70-80% до значений выше 99%, и если раньше высокие показатели обеспечивались комбинированием нескольких подходов, то недавнее сравнение 70 пайплайнов (все комбинации 7 инструментов картирования и 10 инструментов поиска вариантов - Hwang, K., Lee, I., Li, H. et al. 2019. Comparative analysis of whole-genome sequencing pipelines to minimize false negative findings. Sci Rep. 9, 3219) выявило лидера – BWA-MEM/GATK3-HC продемонстрировал максимальные значения Recall (чувствительность) и Precision (прогностическая ценность положительного результата, PPV), которые превысили даже показатели объединенных наборов данных нескольких инструментов. При этом был зафиксирован значительный разброс между различными комбинациями программ, что говорит о необходимости валидации применяемых в лабораториях биоинформационных решений. Для оценки аналитических характеристик алгоритмов в рамках проекта Genome in a Bottle (GiaB) на нескольких платформах были отсеквенированы эталонные клеточные линии от добровольцев, данные секвенирования объединили для получения кросс-валидированных высокодостоверных наборов вариантов, с которыми можно сравнивать результаты работы пайплайнов.
Критическими для целей клинического применения значениями являются чувствительность и PPV, их важность становится понятна из этой таблицы:
Референсная последовательность | |||
Секвенированная последовательность | Истинноположительные TP | Ложноположительные FP | Прогностическая ценность положительных результатов Positive predictive value, PPV Precision = TP / (TP + FP) |
Ложноотрицательные FN | Истинноотрицательные TN | False omission rate = TN / (FN + TN) | |
Чувствительность Sensitivity Recall = TP / (TP + FN) | Специфичность Specificity = TN / (FP + TN) |
Разные виды ошибок имеют разную значимость при выполнении NGS – ложноположительные результаты, как правило, можно оценить в ручном режиме по анализу сырых данных или перепроверить секвенированием по Сэнгеру, ложноотрицательные результаты обнаруживаются только при переделке анализа. По этой причине целевым параметром оптимизации пайплайнов является показатель чувствительности (Recall, низкое число ложноотрицательных) при сохранении высокого уровня PPV (Precision, низкое число ложноположительных). Высокое значение Recall позволяет быть уверенным в том, что существующие в сырых данных мутации не будут пропущены на этапе биоинформационного анализа, а высокий показатель PPV значительно облегчает интерпретацию результатов, заранее отмечая (но не удаляя из списка вариантов) нуклеотидные замены, которые с большой долей вероятности являются артефактами секвенирования и замедляют проведение исследования. Аналитическая специфичность в NGS не имеет определяющего значения, так как в силу особенностей методики количество истинноотрицательных приблизительно равно размеру изучаемой панели и Specificity всегда близка к 100%.
На точность и воспроизводимость идентификации мутаций влияют множество параметров – глубина покрытия, качество картирования, GC-окружение, наличие повторов ДНК, версии и настройки программ, поэтому результаты сравнения VCF-файлов могут значительно различаться в зависимости от выбора подмножества вариантов, участвующих в расчете характеристик точности. Консорциум GiaB совместно с платформой PrecisionFDA разработали рекомендации по проведению тестирования, но важно отметить, что анализ проводится только в "простых" регионах генома (high-confidence regions), поэтому полученные оценки всегда завышены по сравнению с полными панелями, но тем не менее, при стандартизации подходов к тестированию это дает возможность прямого сопоставления различных версий пайплайнов. Достоверные наборы вариантов для проблемных регионов (центромеры, повторы и т.д.) находятся в процессе разработки и пока редко используются в целях тестирования, так как согласованность результатов между методами секвенирования коротких фрагментов и одномолекулярными длинными прочтениями в этих локусах не превышает 60-70%. Также одним из недостатков рекомендованного подхода является необходимость ручной проверки ложноположительных и ложноотрицательных вариантов – несовпадения могут быть вызваны не ошибками алгоритмов пайплайна, а несовершенством инструментов сравнения, неспособных распознать некоторые одинаковые генетические варианты, по-разному представленные в VCF-файлах.
Результаты работы seq24 сравнивались c высокодостоверными вариантами для экзома и генома стандартного образца NA12878/HG001 на платформе PrecisionFDA (инициатива Управления по санитарному надзору за качеством пищевых продуктов и медикаментов, обеспечивающая облачное решение для разработки, тестирования, валидации и сравнения биоинформационных пайплайнов на основе референсных образцов). Для генома использовались рекомендуемые VCF- и BED-файлы из набора данных NIST v3.3.2, для экзома – результат пересечения BED-файла NIST v3.3.2, панели Nextera Rapid Capture Exome and Expanded Exome и панелей регионов с двумя градациями среднего покрытия – выше 10х и выше 100х. Режимы фильтрации – без использования фильтров, фильтры по качеству (QD, FS, MQ, MQRankSum, ReadPosRankSum, SOR), сверточная нейросеть (CNN). Все различающиеся точки были вручную сопоставлены с референсными вариантами, результаты представлены в таблице:
Покрытие выше 10х | Покрытие выше 100х | |||||
---|---|---|---|---|---|---|
Вид анализа | Precision | Recall | F-measure | Precision | Recall | F-measure |
GATK4, экзом, с фильтрацией вариантов | 99,90% | 99,64% | 99,77% | 99,96% | 99,85% | 99,90% |
ложноотрицательные: 69 ложноположительные: 19 | ложноотрицательные: 12 ложноположительные: 3 | |||||
GATK4+Strelka2, экзом, с фильтрацией вариантов | 99,84% | 99,87% | 99,86% | 99,94% | 99,97% | 99,96% |
ложноотрицательные: 24 ложноположительные: 30 | ложноотрицательные: 2 ложноположительные: 5 |
Из приведенных данных видно, что использование дополнительного метода поиска мутаций (Strelka2) значительно снижает количество ложноотрицательных результатов и в то же время не сильно влияет на показатель Precision, особенно заметна разница в недостаточно покрытых областях, где часто наблюдаются пропуски альтернативных аллелей или неверное определение генотипов. Следует отметить, что все ложноотрицательные варианты были обнаружены одним из алгоритмов, они присутствуют в VCF-файлах и итоговой таблице, но помечены фильтром по критерию качества картирования прочтений.