Bandeau haut

Outils pour utilisateurs

Outils du site


manuel:typesfichiers

Ceci est une ancienne révision du document !


Le développement des Systèmes d'Information Géographique s'est accompagné du développement de formats informatiques spécifiques, aussi bien pour stocker les données, que pour les transformer ou encore les diffuser.

Cet article décrit les principaux types de fichiers utilisés dans le cadre du traitement de données géolocalisées, notamment dans les logiciels de type SIG (ex. : QGis, ESRI ArcGis)

FIXME

L'information géographique

Les caractéristiques d'une donnée géographique peuvent être distinguées en deux catégories :

  • la sémantique : les éléments qui caractérisent un objet par rapport à une thématique (ex. : un toponyme, un numéro de route, un code EPCI) ;
  • la géométrie : la forme, la localisation de l'objet.

Une autre catégorie importante existe, celle de la topologie, qui décrit les éventuelles relations entre objets (ex. : adjacence, intersection). Celle-ci est plus généralement implémentée par les logiciels de SIG par la mise en œuvre de règles d'intégrité, basées sur la géométrie. FIXME

Géométrie

Le premier but d'une donnée géographique est de pouvoir la représenter et la localiser sur la surface terrestre. Elle doit donc être décrite par sa forme (ex. : un point pour une commune, une surface pour une parcelle, une ligne pour une frontière), son étendue et sa localisation.

La localisation peut elle-même être décomposée entre les coordonnées de l'objet et le référentiel utilisé pour exprimer ces coordonnées. Ce référentiel est appelé le Système de Coordonnées de Référence (SCR) normalisé applicable à un jeu de données. C'est le SCR qui permet d'appliquer des coordonnées à la surface terrestre.

Les SCR ont été normalisés par l'European Petroleum Survey Group (EPSG). Ces travaux de normalisation ont été repris par l'OGP (Oil and Gas Producers) et sont aujourd'hui la référence reprise par les standards de l'OGC (Open Geospatial Consortium) et les outils de SIG.

Chaque SCR dispose de ses caractéristiques propres, notamment :

  • son type : géographique ou projeté,
  • le méridien de référence,
  • l'unité d'expression des coordonnées.

Sémantique

Cette composante est celle qui décrit fonctionnellement le type d'objet géographique considéré. En fonction de la thématique étudiée, en fonction de son type, un objet sera décrit par différentes caractéristiques. Ces caractéristiques propres à un type d'objet géographique sont appelées des attributs.

Exemples :
Type d'objet Attribut possible
Bâtiment Année de construction
Matériau
Destination
Parcelle forestière Essence majoritaire
Densité de peuplement
Risque d'incendie

Dans une application donnée, tous les objets d'un même type sont décrits par la même liste d'attributs. Chaque attribut est principalement caractérisé par :

  • un type de données (ex. : chaîne de caractères, numérique entier, date),
  • une longueur,
  • et éventuellement une liste de valeurs autorisées.

=== Topologie === FIXME Ce troisième aspect décrit les relations entre entités géographiques. Par exemple, deux parcelles sont adjacentes si elles partagent une limite commune. Le système d'information doit donc être en mesure de gérer cette limite commune comme un objet commun aux deux parcelles. Ainsi, les lignes sont représentées comme une liste de points, et les polygones comme un ensemble de lignes. Il est ainsi possible de déterminer le voisinage de deux entités par le fait qu'elles partagent un sommet ou un segment.

Deux formats de données

En fonction de sa nature ou encore de son mode d'acquisition, la donnée géographique est stockée sous deux formats différents :

  • le mode vecteur,
  • le mode raster.

Le mode vecteur correspond à une vision du monde sous forme d'entités discrètes quand le mode vecteur est plus adapté à la représentation d'un phénomène continu (ex. : altitude, température). Chaque mode stocke ses données de façon spécifique.

Vecteur

Dans ce mode, les entités du monde réel sont représentées sous la forme d'entités géométriques. Chacune d'entre elles dispose de sa forme, de ses dimensions, et de ses coordonnées (géométrie). Trois types de formes sont disponibles : les points, les lignes et les polygones.

Chaque entité porte aussi un certain nombre d'informations la décrivant d'un point de vue sémantique. Ces informations sémantiques sont stockées dans un format tabulaire, chaque ligne étant un objet géographique, et chaque colonne une caractéristique sémantique de cet objet. Cette structure est généralement appelée table attributaire.

Dans le mode vecteur, les objets sont stockés dans des ensembles appelés couches. Chaque type d'entité est représenté par une forme unique et fait l'objet d'une couche spécifique.

Exemples : une couche de points pour des stations de métro, une couche de lignes pour les lignes d'un réseau, une couche de polygones pour les quartiers

Le format shapefile décrit ci-dessous est le type de fichier “historique” pour les données vectorielles et a longtemps été un standard de fait pour ce type de données.

Raster

Le mode raster représente les informations sous forme d'une grille régulière.

Chaque cellule de cette grille (appelée pixel) est porteuse d'une information d'un type bien précis. En effet, chaque cellule de la matrice ne peut contenir qu'une seule information.

Ce mode est généralement utilisé pour décrire des phénomènes continus.

Exemple : Les modèles numériques de terrain et de surfaces sont généralement exprimés sous la forme d'un raster. Chaque pixel décrit une surface, et stocke pour celle-ci a donnée altitude.

La localisation est permise par les éléments suivants :

  • la connaissance du SCR. Celui-ci peut être inclus dans les meta-données du fichier (voir GeoTiff ci-dessous),
  • les coordonnées terrestres du premier point du raster,
  • le nombre de lignes et de colonnes de la matrice contenue dans le fichier,
  • la résolution : la surface réelle qui est représentée par un pixel (ou la longueur que représente le côté d'un pixel).

Quelques types de fichiers

Shapefile

Il s'agit du format de fichier historique du logiciel ArcGis. En réalité, il ne s'agit pas d'un seul fichier, mais de plusieiurs fichiers, dans le même répertoire, ayant le même nom. Seule l'extension du fichier les distingue.

Extension Description Obligatoire ?
.shp Shapefile Fichier principal qui stocke la géométrie des objets Oui
.shx Shapefile index file Fichier d'index Oui
.dbf Shapefile data file Fichier qui stocke la table attributaire (sémantique). Dans les faits, un fichier tabulaire au format dBASE, lisible dans un logiciel de type tableur. Oui
.prj Shapefile projection file Fichier qui stocke lees méta données du Système de Coordonnées de Référence utilisé pour le shapefile. Fichier pouvant être lu avec un éditeur de texte. Non
.xml xml metadata Méta données du jeu de données au format xml. Non
.sbn Spatial index files Permettent d'optimiser le traitement des requêtes spatiales Non
.sbx
.cpg Code page file Fichier texte décrivant l'encodage utilisé pour créer le shapefile. Par défaut, l'encodage système. Non

Esri geodatabase

C'est le format de données développé par ESRi pour ArcGIS utilisé par défaut par les versions actuelles de son logiciel. Il s'agit de bien plus qu'un fichier. Une geodatabase structure des données géographiques stockées dans un système de fichiers commun. Il en existe de trois types, par niveau de complexité croissant :

  • File geodatabase : Un ensemble de jeux de données géographiques, ordonnés dans un répertoire commun. Prévue pour des usages personnels ou de petites structures
  • Mobile geodatabase : En plus de l'arborescence des fichiers de données, cette geodatabase inclut aussi une base de données relationnelle, implémentée dans un fichier SQLite3.
  • Enterprise geodatabase : La base de données est implémentée sur un serveur de bases de données d'entreprise.

Les bases de données relationnelles permettent d'optimiser les tris en créant automatiquement des index sur les données intégrées à la geodatabase. Elles permettent également d'interroger les données avec un outil standard tel que le langage de requêtes SQL.

Une geodatabase permet de gérer à la fois des données au format vecteur et au format raster, chaque jeu de données étant stockée dans un fichier dédié/

Les données vectorielles dans une geodatabase mettent en œuvre de concept de classe d'entités. Il s'agit de la description d'un type de données géolocalisées précis, partageant le même sens et décrites avec la même structure de table attributaire.

Chaque classe d'entité dispose :

  • de son SCR,
  • de sa forme (liste ci-dessous),
  • de ses informations géométriques dans les colonnes shape, shape_area, shape_length

Les principales formes gérées sont les suivantes :

  • points
  • lignes
  • polygones
  • annotations
  • multipoints : gestion de tous les points qui partagent certains attributs
  • multipatch (géométrie 3D) et objets 3D (textures)
  • sommets
  • segments droits ou courbes

Geopackage

Il s'agit d'un format de données ouvert, développé notamment par l'Open Geospatial Consortium. Il repose sur un fichier unique, avec l'extension gkpg. Ce fichier contient une ou plusieurs couches de données.

Le format de ce fichier est une base de données SQLite3. Elle est consultable avec un client de base de données tel que SQLite Studio. On y retrouve entre autres les tables suivantes :

Nom de la table Description
gpkg_spatial_ref_sys Contient la liste des SCR utilisés par une ou plusieurs couches du geopackage
gpkg_contents Contient la liste des couches contenues dans le geopackage. Une couche peut contenir des entités géométriques (type features) ou seulement des données tabulaires (type attributes). Chaque couche fait référence à un SCR de la table gpkg_spatial_ref_sys et a des coordonnées d'origine propres à ce SCR.
gpkg_geometry_columns Décrit pour chaque couche d'entité géographique le type de géométrie (points, lignes ou polygones), et le nom de la colonne qui décrit cette géométrie dans les tables spécifiques aux entités
nom_de_la_couche_1 Table spécifique à une couche. Contient les données attributaires (sémantique) ainsi que la géométrie dans une colonne dédiée, renseignée dans gpkg_geometry_columns
nom_de_la_couche_2
nom_de_la_couche_n

GeoTiff

Format de données développé dans les années 1990 sous l'impulsion de l'OGC FIXMEpour intégrer des métadonnées géographiques à un fichier image au format TIFF (Tagged Image File Format), qui était le format de stockage des images le plus mature à cette époque.

Il permet de stocker des données au format raster.

Les informations de géométrie du raster (SCR, résolution, coordonnées) sont stockées soit dans en-tête du fichier image, soit à par, dans un fichier dit world file.

GeoJPG

Comme le GeoTIFF, c'est une extension du format image original JPEG pour intégrer les métadonnées de géométrie du raster.

GeoJSON

Il s'agit d'un format ouvert, conçu pour stocker des données géographiques, dont les attributs sont stockés dans la notation JSON (JavaScript Oriented Notation).

Il gère les formes élémentaires utilisées pour les données vectorielles (points, polylignes et polygones).

Il permet également de gérer les entités multiparties. FIXME

Keyhole Markup Language (.kml, .kmz)

Ce format de fichier représente et stocke les données géographiques dans des fichiers au format XML.

Développé à l'origine par Google pour être utilisé dans Google Earth, ce format a été reconnu comme un standard par Open Geographic Consortium en 2008 et est aujourd'hui exploitable dans la plupart des logiciels de SIG.

Ses coordonnées sont toujours exprimées en degrés, dans le SCR WGS84.


Dominique Le Gal, 2023

Bibliographie :

Aschan-Leygonie, Christina, Claire Cunty, et Paule-Annick Davoine. Les systèmes d’information géographique: principes, concepts et méthodes. Cursus. Malakoff: Armand Colin, 2019.


OGC GeoTiff Standard v1.1


OGC GeoPackage Standard v1.3.1


ESRI Shapefile Technical Description


What is a geodatabase ?

manuel/typesfichiers.1684312737.txt.gz · Dernière modification : //17/05/2023 10:38// de joliveau

Bandeau bas