Utilité et buts du traitement des données avant interpolation

A l’heure où l’on parle de réchauffement climatique, de développement durable et d’expansion des zones urbaines, il s’avère nécessaire de développer conjointement des outils pouvant permettre à la fois une gestion intelligente du territoire, des ressources naturelles et une meilleure compréhension de l’histoire de la Terre.

Dans le contexte de l’aménagement du territoire du Canton de Genève, caractérisé par des contraintes surfaciques croissantes, le sous-sol représente une ressource en espace encore mal  connue, et donc sous-utilisée.

Pourquoi rendre des données homogènes ?

Tant que les données proviennent d’une seule et même campagne de collecte d’informations (travail de terrain), tout va bien. Quand ces données proviennent de plusieurs campagnes de prospection d’une même entreprise, cela se complique déjà un peu pour les assembler. Maintenant, quand on doit assembler des données de plusieurs campagnes de terrain, provenant de plusieurs entreprises, ayant chacune une interprétation qui lui est propre, et que ces données proviennent de matériel d’acquisition ayant évolué dans le temps et que la qualité des premières données est nettement de moins bonne qualité que les dernières…cela devient extrêmement compliqué à gérer et à homogénéiser ces données (cf. travail de thèse).

La solution de facilité qui semble pouvoir répondre à la problématique exposée ci-dessus, c’est d’utiliser des outils de géostatistiques, et de tout mettre dans une boîte noire (logiciel de modélisation) et de voir ce qui va en sortir. Si le résultat de cette modélisation semble cohérent, on va s’en contenter et dire que ces données sont validées par un outil stochastique. Mais en réalité, tout dépendant du secteur où l’on se trouvera, on pourra avoir des données de bonnes qualités, tout comme dans un autre secteur, des données inexploitables de par la quantité d’erreurs qu’elles contiendront. L’inconvénient de ces types de modèle, c’est qu’il ne sera pas possible sans investigations supplémentaires, de connaître la qualité des données.

La solution à une bonne homogénéisation des données, c’est de rendre les données cohérentes entre elles avant d’utiliser une approche stochastique. Et pour ce faire, il faut dans un premier temps, utiliser la puissance de calcul spatial des SIG (par des requêtes ciblées, une approche de Data Mining spatial) pour extraire toutes les données incohérentes. Ensuite, par des tests logiques, trouver s’il y a une logique dans les erreurs constatées et sur cette base, tester l’ensemble de la base de données. C’est un travail compliqué qui prend du temps, mais c’est le seul moyen de ne pas avoir de mauvaises surprises. Dans tous les cas, le coût d’une telle approche est infiniment moins onéreuse, qu’une situation où l’on se trouve sur un chantier bloqué par des dépassement budgétaires en raisons de la mauvaise qualité des données de départ. Ou encore dans la situation où des ressources en eau potable ont été contaminées par des polluants de surface, lors de forages ou des travaux d’excavation, en raison de modèles réalisés sur la base de données non vérifiées. Un autre inconvénient, c’est que ces modèles inspirent la méfiance et qu’ils ne sont pas utilisés par les entreprises qui pourraient en avoir besoin, et ces mêmes entreprises vont réaliser et facturer la modélisation avec des données qu’ils auront eux-mêmes validées.

Une dernière chose intéressante à établir, c’est le niveau de confiance que l’on peut attribuer à un modèle selon la densité et la qualité des données ayant servi à la modélisation (définir des zones de confiance).

Concrètement : Exemple de la modélisation du sous-sol du canton de Genève (travail de thèse, O. Kaufmann).

Sur la base d’un siècle d’enregistrements de données géologiques (la provenance des données est multi-sources), il a pu être constaté que :

  • 30% des sondages comportaient des erreurs (positionnement, saisie, interprétation, doublon, etc.)
  • 90% des isohypses des cartes de synthèses (géophysique, observation de tranchées, etc.) comportaient des erreurs

La solution pour trouver tous les types d’erreurs : Data Mining Spatial.