Centre de données

Publié le 11 décembre 2019 par Jean Mathias Griessmeier, Mickaël Coriat.

Cette tâche de service du SNO SKATE concerne la mise à disposition des données de FR606 et de NenuFAR via le centre de données LOFAR-NenuFAR ainsi que la préparation de la participation française au réseau des SKA Regional Centers aussi bien au niveau européen que mondial.

Les instruments de radioastronomie basse fréquence sont producteurs de données massives et nécessitent des moyens de calculs importants ; si SKA est annoncé comme le premier « télescope Exascale », l’archive long-terme de LOFAR contient de l’ordre de 100 Po, et NenuFAR produit plusieurs Po par an de données pré-traitées. Pour la communauté française, le Centre de Données de Nançay (CDN) fournit les espaces de stockage et les moyens de calcul (matériels et logiciels) et de distribution des données permettant une exploitation optimale des instruments de radioastronomie basses fréquences auxquelles la communauté contribue, en particulier les instruments situés à Nançay, FR606 et NenuFAR (la production de données massives rend pertinents leur traitement et leur archivage sur le site). Son objectif premier est le soutien à l’exploitation de LOFAR (y compris pour le mode standalone de FR606) et de NenuFAR. Les besoins éventuels pour l’exploitation d’autres précurseurs de SKA comme MeerKAT ou ASKAP sont envisagés au cas par cas.

L’accès aux données de SKA, que ce soient les données d’archive ou les données d’observation des PI ou des Key Science Projects, est un des rôles principaux des SKA Regional Centers. Aujourd’hui, la participation française au travail de conception du réseau de SRCs au niveau mondial et européen s’articule autour de plusieurs volets :
1/ la participation aux groupes de travail mis en place en fin 2020 par le SRC Steering Committee (SRCSC) afin d’identifier les solutions technologiques et méthodologiques pour le futur réseau de SRCs au niveau mondial, 2/ la contribution technique au SKA Data Challenges - SDC. Au travers de la coordination de SKA-France et GENCI, des nœuds de la partition GPU de la machine Jean-Zay de l’IDRIS sont mis à disposition de la communauté qui participe aux challenges, et 3/ l’expertise acquise au travers de la mise en œuvre du CDN.

En détail, les tâches de service sont :

  • Maintien à jour des logiciels de traitement scientifique,
  • Mise en place des moyens de traitement et d’archivage des données LOFAR de la communauté française,
  • Mise en place de moyens de traitement et d’archivage des données FR606, mise en place d’une base de données,
  • Conception, opération et pérennisation du traitement et de l’archivage des données de NenuFAR : nature des données archivées, des données mises en ligne, contrôle qualité, etc.,
  • Mise en place de l’accès de la communauté française et internationale aux données de NenuFAR : membres des Key Programmes, puis PI de propositions d’observations à partir de fin 2022,
  • Archivage des données et mise à disposition des données publiques (les données de NenuFAR seront publiques après une période propriétaire d’un an après achèvement du programme).
  • Participation aux activités d’un ou plusieurs des groupes de travail du SRCSC :
    • WG0 : SRC Network Architecture
    • WG1 : Data Logistics Working Group
    • WG2 : Operations Working Group
    • WG3 : SW Federated Computing and Data Software Services
    • WG4 : SW, Science Archive-VO-FAIR
    • WG5 : Compute Working Group
    • WG6 : Science User Engagement
  • Participation aux activités de prototypage de différents sous-systèmes du SRC (activités au sein des WGs 1, 3 et 5) :
    • Data products replication, distribution and synchronization across multiple locations
    • Data processing notebooks
    • Visualization of SKA data with high number of users and high volume of data
    • Distribution of software, tools and services
  • Participation au groupe de travail WG6 portant sur l’interface du SRC avec les utilisateurs de SKA : définition des scénarios d’utilisation des données et des ressources associées
  • Définition de workflows typiques de post-processing des données du SRC, et identification des besoins logiciels associés

Observatoire Virtuel

Dans le cas de NenuFAR, les données « beamformed », spectres dynamiques et archives pulsars, sont distribuées au format FITS et PSRFITS. Les données d’imagerie sont distribuées en format Measurement Set (visibilités et cross-correlations) et en format FITS (images). L’expérience acquise lors des premiers Key Programmes de NenuFAR (resp. de MeerKAT/ASKAP) permettra une diversification des produits « science ready » et une évolution vers les standards de l’Observatoire Virtuel. Cette réflexion est conduite en coordination avec le Centre de Données de Strasbourg, qui possède l’expertise requise. Dans le cadre de SKA, des besoins similaires existent pour le développement de standards OV pour la radioastronomie. Ces réflexions ont lieu au sein du WG4 du SRCSC (cf. ci-dessus).