PREDONx Atelier sur la préservation des données scientifiques

Europe/Paris
LIPADE

LIPADE

45 rue des Saints Pères Paris 75006, France Salle Leduc (rdc à droite en rentrant)
Christophe Cérin (urn:Google), Cristinel Diaconu (Faculte des Sciences de Luminy), Salima Benbernou (Université Paris Descartes)
Description

PREDONx 2016 : Atelier sur la Préservation des Données Scientifiques

Thématique: "Cycle de vie des données"

Vendredi 2 décembre 2016,

LIPADE Université Paris Descartes, Paris

L'atelier PREDONx 2016 a comme thématique principale le cycle de vie des données et est organisé par le projet PREDON, développé au sein du programme de grandes masses de données MASTODONS de la Mission Interdisciplinarité du CNRS, et action au sein du GdR MADICS.

Les sessions sont organisées suivant plusieurs présentations invitées avec des plages de discussion. Les propositions de présentation sont à soumettre aux organisateurs avant le 14 Novembre 2016 (titre, description, courte présentation de l'orateur).

Un document réunissant les principales conclusions de cet atelier sera produit et diffusé.

Inscriptions:

L'intendance sur place est assurée pour les inscrits; nombre de participants limité à 40, les repas seront confirmés ; support pour le voyage en France selon les disponibilités (contacter les organisateurs).

=====

PREDON est aussi une action au sein du GDR MADICS http://www.madics.fr/

 

Photo
Plan de la salle Leduc - Accès
Participants
  • Alexia de Casanove
  • Andre Schaaff
  • Angélique Pèpe
  • Artemis Lavasa
  • Benbernou Salima
  • Christine Hadrossek
  • Christophe Cérin
  • Cristinel Diaconu
  • Cyril SEGUIN
  • Gaël Le Mahec
  • Gilles Fedak
  • Gilles Landais
  • Hanene Azzag
  • Heithem Abbes
  • Jean-Baptiste Marquette
  • Jean-Dominique Polack
  • Konrad Hinsen
  • Marianne Allanic
  • Marie-Claude Quidoz
  • Mustapha Lebbah
  • Nadine Couëdel
  • Pascal Calvat
  • Patricia Geretto
  • Sarah Cadorel
  • Sonia Séfi
  • Soror Sahri
  • Sébastien Cat
  • Vincent Joguin
  • Volker Beckmann
    • 09:00 10:25
      Cycle de vie des données: naissance, adolescence, maturité, obsolescence et disparition des données

      Scientists spend a significant part of their time to design, collect and analyze data. While the lifetime of a project is often identified with the lifetime of its data, a clear and strong case have been presented in a majority of disciplines to preserve and re-use the scientific data, well after the initial project ends. In this session, concrete examples of scientific projects where data preservation is relevant will be discussed, in order to emphasize the need for a coherent long term perspective of scientific data preservation.

      • 09:00
        Introduction: La vie cachée des données: ou vont les bytes après l'analyse? 10m
        Speaker: Cristinel Diaconu (CPPM, Aix-Marseille Université, CNRS/IN2P3 (FR))
      • 09:20
        Blockchain pour les entreprises, mythe ou hype? Révolution ou évolution ? 25m

        Luca Comparini, Blockchain Leader chez IBM France, dirige une équipe d’experts IBM afin de faciliter l’adoption et la diffusion de la Blockchain sur le marché. Fort de 10 ans d’expérience en infrastructure IT, logiciels Linux et Open Source, il nous fait part de son expertise sur la blockchain, cette technologie complexe qui nécessite quelques explications.

        Speaker: Luca Comparini (IBM France)
      • 09:55
        Systèmes de fichiers distribués élastiques et persistance des données 25m
        Speaker: Cyril SEGUIN (UPJV MIS)
    • 10:30 11:00
      Pause Café 30m
    • 11:00 12:50
      Methodologies pour la préservation des données

      Methods, practices and projects for data preservation: community projects, work on data preservation standards, exchanges with libraries and information sciences, policies, legal aspects of data preservation.

      • 11:00
        Data Life Cycle Management on Distributed and Heterogeneous Infrastructures 20m
        Speaker: Gilles Fedak
      • 11:35
        Modèle de déploiement automatique des services basé sur le cycle de vie pour Montage 25m
        Speaker: Heithem Abbes
      • 12:10
        Nouvelles infrastructures numériques pour la recherche à USPC. 20m
        Speakers: Christophe Cérin (urn:Google), Leila Abidi (Université Paris XIII)
    • 12:50 13:50
      Déjeuner 1h
    • 14:00 16:00
      Cycle de vie des données scientifiques: Exemple de préservation et de cycle de vie des données digitale au sein de projets scientifiques

      Hardware providers, computing centers, industry actors etc. are providing various pieces and parts to preserve digital data long term; are these adapted for scientific data preservation? Do we understand the requirements and the limits of the present technology?

      • 14:00
        Problématique du devenir des données au Centre de Calcul de l'IN2P3 20m

        Le Centre de Calcul de l'IN2P3 fournit des ressources informatiques à plusieurs milliers d'utilisateurs réparties dans des thématiques scientifiques variées. En 2016, plus de 50 petaoctets de données sont accédés en ligne depuis le monde entier. Grace à la mise en place d'un plan de gestion et d'un inventaire précis des données, le centre de calcul sera en mesure d'accompagner chaque équipe de recherche sur la vie des données durant un projet. Le plan de gestion détaillera le devenir des données à la fin d'un projet ou au départ d'une personne.

        Speakers: Pascal Calvat (cnrs), Pascal Calvat (Unknown)
      • 14:30
        La gestion du cycle de vie des données de recherche en SHS , avec toutes ses composantes : collecte, classement, sélection, édition, conservation, diffusion (titre provisoire , à confirmer) 20m

        L'équipe d'Archipolis (http://archipolis.hypotheses.org/), plus de détails sur : http://www.bequali.fr/fr/nos-pratiques/. Le Centre de données socio-politiques (CDSP) est spécialisé dans la documentation et la mise à disposition des données en sciences humaines et sociales. S’il a d’abord traité des données et enquêtes quantitatives (bases de données électorales, fichiers d’enquêtes par questionnaires déposés au CDSP par des institutions et des chercheurs etc.), son périmètre s’est élargi en 2012. Avec la mise en place de l’équipement d’excellence DIME-SHS il œuvre dorénavant à la mise à disposition des données issues de méthodes qualitatives (entretiens, observations ethnographiques, etc.) et à la production d’enquêtes quantitatives. Le CDSP s’attèle aujourd’hui à archiver de manière pérenne au CINES les jeux de données mis à disposition dans le cadre de DIME-SHS. Cette étape supplémentaire dans la gestion du cycle de vie des données garantit la conservation des enquêtes à long terme, tout en préservant leur intelligibilité et accessibilité. L’originalité de ce projet d’archivage réside dans la nature des objets archivés : des enquêtes en sciences humaines et sociales et non pas seulement des bases de données ou des corpus regroupés sur les critères de formes ou de supports (comme des banques d’images par exemple). Ici chaque paquet d'archivage, organisé selon un plan de classement, contient, dans le cas des données qualitatives, les documents de l’enquête - ce que les chercheurs ont produit lors de leur travail sur le terrain mais aussi en amont lors de la préparation de l’enquête et en aval lors du travail d’analyse des données - ainsi que l’ensemble de la documentation réalisée par le CDSP en vue d’une réutilisation scientifique ou pédagogique de ces corpus. Dans le cas des enquêtes quantitatives, le cycle de vie des données est pris en charge par l’équipe du CDSP en lien avec les chercheurs, dès l’étape de leur conception et production en passant par leur documentation et finalement leur mise à disposition et archivage. La constitution des paquets d’archivage peut débuter dès l’étape de réalisation des enquêtes et être finalisée une fois l’enquête documentée et diffusée. Cet archivage de corpus complexes suit donc une logique utilisateur, tout comme le travail de mise à disposition en vue de la réutilisation des données d’une enquête.
        Décrire ces processus pour les enquêtes qualitatives et quantitatives de DIME-SHS fera l’objet de notre présentation.

        Speakers: Alexia de Casanove , Sarah Cadorel
      • 15:00
        La curation des donnees dans VizieR: le travail des documentalistes pour l'assignation de meta-donnees et les standards utilises 20m
        Speakers: Gilles Landais, Gilles Landais (Centre de Données Astronomiques de Strasbourg)
    • 16:00 16:30
      Pause Café 30m
    • 16:30 17:50
      Préservation et de cycle de vie des données scientifiques: Documentation et préservation
      • 16:30
        Gestion de données hétérogènes et du cycle de vie d’une étude d’imagerie biomédicale dans un système PLM 20m

        L’imagerie biomédicale fait une place croissante aux approches multimodales provenant d’images acquises avec plusieurs instruments (IRM, TEP, échographie, …), et aux données multi-sources croisant les images médicales avec des données démographiques, psychologiques, pharmacologiques, métaboliques, génétiques etc. Ces quantités de données sont hétérogènes, multi-formats et leur provenance est complexe. Le PLM biomédical permet de gérer les données d’une étude tout au long de son cycle de vie dans un environnement intégré, afin de faciliter leur partage entre les acteurs d’une étude, leur reproductibilité par des personnes extérieures à l’étude et leur réutilisation dans d’autres contextes, différés dans le temps (études longitudinales, méta-analyses, constitution de cohortes de grandes taille).

        Speaker: Dr Marianne ALLANIC (CADESIS, Chef de Produits Imagerie Biomédicale )
      • 17:00
        THOR project: establishing better links between article and data 20m

        THOR is a 30 month project funded by the European Commission under the Horizon 2020 programme. It will establish seamless integration between articles, data, and researchers across the research lifecycle. This will create a wealth of open resources and foster a sustainable international e-infrastructure. The result will be reduced duplication, economies of scale, richer research services, and opportunities for innovation.

        Speaker: Ms Artemis Lavasa (CERN)
      • 17:30
        La publication de calculs avec ActivePapers 20m

        La plate-forme ActivePapers a été développée pour faciliter le partage, l'archivage, et la publication de calculs. Elle ne gère pas seulement les résultats et leur provenance mais aussi les logiciels qui ont été utilisés pour les obtenir. J'illustrerai son fonctionnement et ses caractéristiques à l'exemple de quelques projets de recherche en simulation biomoléculaire des dernières années.

        Speaker: Konrad Hinsen (CNRS)
    • 19:00 21:30
      Social Dinner To be announced

      To be announced

      Registered participants (who have confirmed their attendance at the dinner) are invited to join the social dinner (location to be determined).