5 - Documenter précisément les métadonnées

CONTEXTE
Les métadonnées sont de l’information structurée qui décrit, localise et facilite la gestion d’une ressource d’information. Les métadonnées permettent de comprendre exactement la nature des données que l’on peut réutiliser et donc réduire les téléchargements inutiles en raison d’une mauvaise compréhension.

Les métadonnées sont aussi une bonne sources d’information pour mesure la qualité des données et leur politique de publication. Au-delà d’indicateurs de qualité, les métadonnées semblent être un espace privilégié pour figurer des indicateurs de sobriété des données à disposition.

Les métadonnées homogénéisées permettent :

  • de réduire les barrières d’accès aux ressources , conduisant à une meilleure visibilité, et donc augmentent le potentiel de réutilisation des jeux de données,

  • de mieux identifier les jeux de données disponibles et associés (par thèmes notamment),

  • de limiter les téléchargements inutiles grâce à une description fine des métadonnées, contexte de la création du jeu de donnée,


DESCRIPTION DE LA BONNE PRATIQUE

1 - Les données essentielles à figurer dans les métadonnées :

  • Titre du jeu de données
  • Description libre de l’objet et du contenu de la donnée
  • Thème du jeu de données
  • Nom de la structure qui diffuse la donnée
  • Nom de la structure qui crée produit la donnée
  • ​Nom de la structure qui gère la donnée
  • Couverture spatiale sur lequel s’appliquent les données
  • Début/Fin de la Plage temporelle couverte par les données
  • ​Fin de la Plage temporelle couverte par les données
  • ​Date de la première publication
  • ​Fréquence de la mise à jour
  • ​Date de la dernière mise à jour publiée
  • Mots-clés permettant des recherches libres
  • ​Licence appliquée sur le jeu de données
  • Liste des formats dans lesquels sont publiées les données
  • Code de la projection géographique quand cela s’applique
  • Langue du jeu de données
  • Liens vers les ressources accessibles

2 - Utilisation des normes existantes

Pour garantir cette homogénéisations des métadonnées, il est important de s’appuyer sur des formats reconnus pour s’assurer de leur pertinence (les données nécessaires) et de leur format (la façon dont on les a structuré et codifié).

Les formats standards permettent la collecte et la recherche des données et autorisent un traitement automatique des métadonnées.

Dans de nombreux cas, c’est le portail qui héberge les données qui propose d’adopter tel ou tel format pour les métadonnées. Ceux-ci sont généralement en conformité avec les standards internationaux. Les standards recommandés sont INSPIRE pour les données géographiques, DCAT et ses déclinaisons pour tout type de données ouvertes.

Dans le cadre du projet OpenDataLocale, la norme DCAT, la plus courante et adaptée à l’open data, a été utilisée et légèrement simplifiée pour un usage courant. Le contenu et le format de métadonnées est décrit dans la spécification du jeu de donnée CATALOGUE du Socle Commun des Données Locales.

3 - Développer et intégrer de nouveaux indicateurs dans les métadonnées :

  • Indicateurs de qualité : conforme à un standard existant (O/N ou tag + lien du standard), granularité et périmètre du jeu de donnée,
  • Indicateurs de sobriété : volume des ressources, compression utilisée,
  • Indicateurs de gestion : formats des datasets, politique d’archivage, durée de vie de la donnée,
  • optionnel - indicateur de souveraineté : hébergement de la donnée, protection des données.

A noter que la curation et la gestion des métadonnées doit être opéré par le producteur des données lui-même.


RETOUR D’EXPERIENCE

  • OpenDataSoft propose d’expérimenter dans ce cadre, l’ajout d’une métadonnées « Archivé » afin de mieux identifier les jeux de données vivants des données d’archives.
  • Une actualisation du standard Catalogue pourrait être réalisée en intégrant ces pistes. Un thésaurus des thématiques des jeux de données diffusés et mobilisés par les territoires pourrait être à développer afin d’apporter un cadre à la qualification des métadonnées. OpenDataFrance propose un kit de ressources pour mieux documenter les données avant leur publication.

Lien vers la fiche : https://opendatafrance.gitbook.io/greendata-pour-un-impact-maitrise-des-donnees/greendata/1.2-bonnes-pratiques/5-documenter-precisement-les-metadonnees


Votre avis nous intéresse.
Que pensez-vous de ces propositions ?

  • :green_circle: D’accord,
  • :orange_circle: Mitigé,
  • :red_circle: Pas d’accord.

0 votant

Vous avez des suggestions ?
Commentez ci-dessous !

Bonjour. cette fiche me parait très bien. Simplement, je ne suis pas fan du retour d’expérience d’opendatasoft. Le terme « archivé » n’est pas adapté en l’espèce, les données d’archives (définitives) sont tout aussi vivantes, mais différemment, que des données courantes ou intermédiaires. Est-ce que la qualification de donnée froide ne serait pas plus adaptée? En tous les cas, « archivé » n’est pas très adapté. Merci!

1 « J'aime »

opendatArchive archive données ET métadonnées… pour tous les portails où elles sont accessibles.

Exemple: Index of /data.culture.gouv.fr/archives/ccfr-repertoire-des-bibliotheques/

Je ne vois par contre pas vraiment le côté « green » en lien avec les métadonnées.

Les métadonnées facilitent la recherche de données, mais ça va assez peu au delà.

Ce n’est pas non plus une documentation, car elle ne peuvent décrire le mode de production et tout un ensemble de règles métier qui ont été suivies en amont.

1 « J'aime »

Je trouve qu’il manque de justifications ici sur la réduction de l’empreinte environnementale grâce à cette bonne pratique. L’explication me semble pas assez étoffée :

Je n’ai pas compris de quels « indicateurs de sobriété » on parle ici :

2 « J'aime »