COVID-19 : La transparence en matière de données publiques

compute Canada data

Anglais

Pierre-Olivier Quirion est au cœur d’un consortium qui décompte les souches de la COVID-19 au Québec. Ses collègues et lui sont la table tournante d’une opération qui part du fond de nos nez avec un écouvillon, et termine lorsque le gouvernement émet ses dernières recommandations. 

Spécialiste en calcul haute performance, Quirion a également joué un rôle pivot dans l’effort pour rendre les données du consortium accessibles au public plutôt que de limiter leur distribution aux spécialistes. « Les scientifiques y pensent, dit-il au téléphone. Mais, c’est plus de travail, ils ne sont pas obligés et il leur manque les ressources humaines et matérielles pour le faire ».

Quirion programme de très gros ordinateurs. Il fait le lien entre les supercalculateurs de Calcul Québec, les prélèvements viraux provenant des laboratoires de dépistage et de génomique, et les scientifiques en phylogénétique qui produisent des arbres généalogiques de virus.

Le consortium — CoVSeQ — a identifié 247 souches virales qui seraient à l’origine de la crise au Québec. L’Institut national de santé publique du Québec, le Centre de génomique de McGill, l’Université de Montréal et diverses autres organisations ont comparé 734 échantillons viraux datant de février et mars dernier avec près de 22 000 résultats de l’extérieur de la province. L’étude, publiée au début de l’automne, indique que les souches auraient été introduites par des personnes retournant d’Europe et des Amériques après la semaine de relâche scolaire. 

Cette étude s’inscrit dans l’objectif principal du consortium, soit d’identifier les souches du virus présentes au Québec. Lorsqu’une nouvelle souche est détectée, les spécialistes déterminent son origine et la santé publique applique ensuite des mesures pour bloquer des points d’accès possibles.

Pour identifier ces souches, qui apparaissent à chaque mutation viable du virus, les scientifiques en génomique doivent séquencer leur génome. Mais, on ne peut pas simplement le regarder. On doit d’abord les couper en morceaux, puis trouver le bon ordre. « On prend des bouts de livres et on essaye de les coller pour refaire le livre au complet », dit Quirion.

On compare ensuite les souches en laboratoire de phylogénétique pour déterminer celles qui se ressemblent le plus et ont probablement des ancêtres communs. C’est ainsi qu’on sait si une personne revenant des Caraïbes est en fait porteuse d’une souche qui a son origine ailleurs, en Europe par exemple.

Et quel est donc le rôle de Quirion ? Pourquoi des superordinateurs ? Tout d’abord, le génome du coronavirus est long ; il compte environ 30 000 acides ribonucléiques, les molécules de base qui constituent les gènes. Deuxièmement, le processus doit être répété plusieurs fois avec des copies de chaque souche pour améliorer la précision.

« [Les scientifiques] roulent souvent ces logiciels sur leurs portables », note-t-il, ce qui ne fonctionnerait pas avec la quantité faramineuse de données. « C’est là que Calcul Québec entre en jeu, dit Quirion. C’est beaucoup plus de données que ce que nous avons l’habitude d’analyser en un court laps de temps ».

L’équipe en bioinformatique du Centre canadien de génomique computationnelle (C3G) développe et applique les programmes informatiques qui reconstituent et comparent les génomes. À cheval entre C3G et Calcul Québec, Quirion adapte les logiciels pour les faire fonctionner sur les puissantes machines de ce dernier. 

Les projets en génomique sont d’ailleurs les plus grands utilisateurs d’espace disque chez Calcul Québec. En physique, astronomie et météorologie, on utilise beaucoup de cycles de calcul, mais les données biologiques requièrent surtout du stockage. Un des projets de C3G à lui seul prend 10 % des 25 millions de Go de Calcul Québec.  

Dans cette course aux résultats, l’on oublie facilement que la transparence est de mise pour les scientifiques, surtout en temps de crise.

Bien que CoVSeQ partageait ses résultats avec la communauté scientifique, il n’était pas pour autant prévu, du moins au départ, de rendre les données facilement accessibles au public. Puisque le gouvernement ne l’impose pas, de nombreuses organisations n’y consacrent tout simplement pas de ressources.

Quirion a donc insisté et poussé pour la construction d’une plateforme sur laquelle les données publiques sont partagées ouvertement, et Calcul Québec a accepté de le supporter. L’objectif, comme l’indique le site web de CoVSeQ, est de proposer « une visualisation interactive des données pour les virologistes, les épidémiologistes, les professionnels de santé publique et les scientifiques ». En bonus, la plateforme permet aux journalistes, entre autres, d’y accéder librement.

Auparavant, Calcul Québec a principalement été un accélérateur de projet et une plateforme facilitant la coopération entre divers acteurs. Mais la culture change, selon Quirion. « Je crois que Calcul Québec va avoir un rôle de plus en plus important pour la gestion de données et pour les rendre publiques », conclut-il

Top