22 janv. 2023 – Y. Duffourd

API hour — Usage des GPU dans l'analyse de données génomiques

Les GPU ou processeurs graphiques sont des unités de calcul initialement optimisées pour le rendu d’images 3D sur ordinateur et ayant besoin pour cela d’avoir un fonctionnement hautement parallélisé les rendant intéressants pour un certain nombre d’autres usages intensifs en calculs.

L’un de ces usages étant l’analyse bioinformatique des données de séquençage, cette solution a été testée sur des génomes au CHU de Dijon.
Le résultat est sans appel : pour un CPU de 16 cœurs, le pipeline des bonnes pratiques de GATK de l’alignement au variant calling nécessitait aux alentours de 63k secondes par génomes. Ce temps de calcul passe à près de 5000s par génome lorsque effectué par 2 Nvidia Tesla v100.

Les résultats de calling sont similaires à ceux du CPU à environ 90%. La plus grande disparité vient du plus vieux génome des échantillons testés et dont les données sont d’une qualité dépassée. Les rendus entre différents runs par GPU sont quant à eux strictement identiques.

Ce gain impressionnant en performance n’est cependant pas sans contrepartie. Les logiciels existants doivent être adaptés pour fonctionner avec des GPU et les solutions open source existantes ont tendance à être peu performantes ou depréciées.
Le second gros frein étant l’investissement important que cette transition représente, chaque carte bi-GPU utilisée par Dijon ayant coûté 30k€ auxquels s’ajoutent théoriquement 40k annuels de licence pour la solution propriétaire de Parabricks utilisée.

Le recours à cette technologie est donc encore à étudier à l’aune des besoins de chaque laboratoire et de leur infrastructure pré-existante.
Pour réduire les obstacles à cette évolution, le CHU de Dijon ambitionne d’embaucher un développeur à plein temps pour adapter et maintenir les outils utilisés aujourd’hui en production à un fonctionnement par GPU. Toute collaboration en ce sens serait grandement appréciée et un pas en avant supplémentaire pour rendre l’analyse de génomes accessible à un maximum d’établissements.

Télécharger le support