26 juin 2020 – G. Collet

Notes de discussion : Gestion de données

Support physique de stockage

NAS ou bande magnétique ? Nombre de copies distinctes sur des supports physiques distincts ? Type de stockage pour chaque support ? (RAID 1, RAID 0, RAID 5)

  • Protection logique : Pouvoir gérer les droits du système de stockage, via un compte de service par exemple
  • avoir le contrôle
  • connaître les modalités de sauvegarde de son infrastructure.
  • données internes au CHU ou réseau externe ?
  • Archivage: délais de récupération.

Stockage: crypté, sécurisé politique de gestion de mot de passe: renouveler régulièrement (minimum une fois par an) et complexe.

Quels fichiers conserver ?

Sous quel format ? Dans quel but ? Quels outils utilisés pour la compression-décompression ? Intégration dans un (ou plusieurs) pipeline(s) en aval ? fatsq compressé, bamCRAM ?

Réglementation (issu de la discussion lors du séminaire BioinfoDiag du 19/09/2019) : L’article R. 1131-15 du code de la santé publique défini le délai de conservation minimale des données liées à l’examen des caractéristiques génétiques.

«Le consentement écrit et les doubles de la prescription de l’examen des caractéristiques génétiques et des comptes rendus d’analyses de biologie médicale commentés et signés sont conservés par le médecin prescripteur dans le dossier médical de la personne concernée, dans le respect du secret professionnel. Les comptes rendus d’analyses de biologie médicale et leur commentaire explicatif sont conservés par les laboratoires d’analyses de biologie médicale mentionnés à l’article R. 1131-11 pendant une durée de trente ans.»

Mais cela ne concerne pas les données de génomique.

L’arrêté du 11 mars 1968, dans son titre V consacré aux éliminations et plus précisément en son article 18, énonce “Le fonctionnaire chargé de la garde des archives a la faculté de procéder à l’élimination des papiers inutiles dans les limites fixées par l’instruction annexée au présent règlement. Il effectue les triages selon les indications données par le directeur des services d’archives du département. Tous documents ne faisant pas l’objet d’une prescription de conservation pourront être en principe éliminés, sous réserve de l’obtention des visas prévus à l’article 19 ci-dessus.»

En l’absence de dispositions expresses octroyant à chaque document un délai de conservation, l’élimination du document est licite et autorisée. Elle obéit à une procédure stricte.

Cependant, il est souhaitable de conserver les documents pendant la durée de recours contentieux L’article L. 1142-28 du code de la santé publique, inséré par la loi n° 2002-303 du 4 mars 2002 relative aux droits des malades et à la qualité du système de santé, détermine le délai de prescription de l’action en responsabilité : «Les actions tendant à mettre en cause la responsabilité des professionnels de santé ou des établissements de santé publics ou privés, à l’occasion d’actes de prévention, de diagnostic ou de soins se prescrivent par dix ans à compter de la consolidation du dommage.» Au final, les données de génomiques “brutes” (pas le rendu) ne sont pas concernées par les obligations actuelles, sauf vis à vis du COFRAC. Effectivement, nous sommes par contre assujetti à la réglementation des laboratoires de biologie médicale.

La norme ISO15189 (4.13.k) / SH-REF-02 définit la durée de conservation des données brutes La durée de conservation des enregistrements qualité et des enregistrements techniques, utiles pour garantir la traçabilité, doit être conforme à la réglementation en vigueur (par exemple en génétique, pour leDPN ou en AMP) et satisfaire à la fois les besoins des patients, des prescripteurs et du laboratoire. Afin de permettre la réalisation successive de 2 évaluations Cofrac dont l’intervalle peut aller dans certains cas jusqu’à 24 mois, elle ne peut être inférieure à 24 mois.En cas de conservation sous forme électronique, les données stockées doivent pouvoir être lues durant toute la durée de la période de conservation (cf. §5.10.3. f) de la norme.

[Les enregistrements concernant les contrôles qualité comprennent les résultats bruts et leurs exploitations.]

Quels fichiers “compagnons” / metadata ?

Des différences selon le séquenceur ? Convention de nommage dans stockage, utilisation de gitlab pour stocker les metadonnées ?

Validation de l’intégrité/validité des données stockées ?

md5, sha, etc ? Gestion des données corrompues ? (“crc32 GZIP error”)

Avoir la maitrise de ses données, à la création utiliser checksum (md5,sha1,sha2… )

Tips et astuces: