Drapeau du CanadaspacerGouvernement du Canada | Government of Canadale mot symbole » Canada «
spacerspacer
English Contactez-nous Aide Recherche Site du Canada
Système canadien d'information sur la biodiversité
Feuilles d'érable

SITI
Recherche de noms biologiques


Accès-espèces
Recherche de spécimens (réseau canadien)


Cartographie en ligne

Banque d'espèces

PFIB


Feuilles d'érable

La Passerelle d'information sur les collections, spécimens et observations biologiques (ICSOB)

par Guy Baillargeon
et Derek Munro
Agriculture et Agroalimentaire Canada, Ottawa

Publié le 26 juillet 2002

Note: La Passerelle ICSOB a été maintenue de 2001 à 2004 et désactivée en 2006. Cet article est conservé à titre historique.

Résumé

En tant que partie de la contribution canadienne au Système mondial d'information sur la biodiversité (SMIB, mieux connu sous son acronyme anglais GBIF - « Global Biodiversity Information Facility »), Agriculture et Agroalimentaire Canada lance un prototype de la Passerelle d'information sur les collections, spécimens et observations biologiques (Passerelle ICSOB). La Passerelle ICSOB est un moteur de recherche mondial sur les spécimens et les observations d'espèces vivantes qui couvre plusieurs réseaux distribués d'information en biodiversité et facilite l'accès à leur contenu combiné. Au début de 2002, la Passerelle ICSOB contenait approximativement 2,4 millions d'enregistrements. La passerelle associe un programme moissonneur d'enregistrements avec un système de référence taxonomique multilingue (SITI*Amérique du Nord), ce qui assure aux usagers un accès aux données par l'intermédiaire du nom scientifique, de synonymes, de noms vernaculaires, par pays de collecte, ou par longitude et latitude. Chaque enregistrement individuel (associé soit à un spécimen particulier ou à une observation) est relié par hyperlien directement à sa source primaire, sur son réseau natif de biodiversité, garantissant que les usagers finaux obtiennent le détail des enregistrements exclusivement par les soins des fournisseurs des données qui conservent le contrôle absolu de leur contenu. Des cartes de distributions interactives sont produites sur demande lorsque les échantillons sont pourvus de coordonnées explicites de longitude et de latitude. Cet article esquisse les difficultés rencontrées et les leçons à tirer dans la construction d'un moteur de recherche pour l'ensemble des réseaux de données primaires en biodiversité. Des recommendations particulières à l'intention des réseaux sont formulées pour faciliter le développement de la prochaine génération de moteurs de recherche.

Introduction

La biodiversité est distribuée sur toute la planète, avec un maximum dans les régions tropicales, particulièrement dans les pays en voie de développement et dans les océans. Ceci contraste avec l'information sur la biodiversité (incluant la majorité des spécimens types) qui est largement concentrée dans les grands centres des pays développés, particulièrement dans les collections scientifiques des muséums d'histoire naturelle, les herbiers, les banques de gènes et les collections de culture de micro-organismes. Il est difficile pour les scientifiques, les environnementalistes, les rédacteurs de politiques et tous les autres usagers de déterminer la biodiversité présente dans une région donnée. Cette connaissance est basée sur des spécimens conservés dans les collections de recherche du monde entier ainsi que sur des rapports d'évaluation environnementale. Traditionnellement, l'obtention de l'information associée au spécimens nécessitait soit une visite et un relevé manuel des collections, soit un emprunt de spécimens. Ceci est difficile même dans les pays développés parce qu'une grande proportion des spécimens importants sont conservés dans des collections situées à l'étranger, voire sur un autre continent.

Le fin du fin sur les collections de spécimens et d'observations biologiques serait la capacité de trouver l'information sur un taxon en particulier, ou sur tous les taxons connus pour une région donnée, quelque soit l'endroit dans le monde où se trouve cette information. En fait, les plans pour GBIF sont ultimement d'interconnecter les bases de données pour fournir de l'information sur tous les quelques 1,8 millions d'espèces - des bactéries jusqu'aux baleines - qui ont reçu un nom scientifique, incluant l'accès à environ 3 milliards de spécimens conservés dans les collections d'histoire naturelle du monde entier. L'un des buts majeurs est d'obtenir des données précisément géo-référencées parce que lorsque que les données numériques de distribution géographique d'entités taxonomiques sont disponibles, il devient possible de les soumettre à des techniques de modélisation en biodiversité (telles que « WhyWhere » - http://biodi.sdsc.edu/) pour établir des corrélations avec d'autres couches de données environnementales (telles que la température, la pluviométrie, les sols, la topographie, etc.) de façon à pouvoir prédire des changements ou expliquer la distribution de la biodiversité.

Au cours des deux dernières dizaines d'années les institutions ont commencé l'informatisation de leur collections de spécimens. Plusieurs de ces collections sont maintenant disponibles sur l'Internet de façon indépendante les unes des autres et chacune avec son interface particulier. Un nombre croissant de collections joignent maintenant leurs efforts pour construire des systèmes distribués, lesquels sont accessibles par l'intermédiaire d'un seul formulaire d'interrogation qui envoit une requête à plusieurs sites et combine les réponses en un seul document de résultats qui peut être soit du texte, soit une carte de distribution. Plusieurs de ces réseaux coexistent maintenant, chacun d'entre eux utilisant une approche et des technologies légèrement différentes pour accéder aux données et les rendre disponibles aux usagers. Les technologies associées aux réseaux distribués sont des véritables cibles mouvantes. Il existe déjà plusieurs « standards ». Sans aucun doute, chacun de ces standards va changer et de nouveaux émergeront au fur et à mesure de l'évolution des technologies et de nos capacité à les exploiter. Les sites suivants sont des exemples de réseaux distribués de spécimens et d'observations qui étaient fonctionnels au début de l'année 2002 (aucun d'entre eux n'utilise de nom français):

  • « The Species Analyst (TSA) »
    http://habanero.nhm.ukans.edu/zportal/tsasimple.asp
    Plus de 2 millions de spécimens de 82 institutions; un modèle partagé d'échange de données (seconde version au stade d'ébauche)
  • « Red Mundial de Información sobre Biodiversidad (REMIB) »
    http://www.conabio.gob.mx/remib/doctos/remib_esp.html
    Plus de 4 millions de spéciments de 62 institutions; un modèle partagé d'échange de données, connectant en temps réel à au moins 6 modèles distincts de gestion de données
  • « The European Natural History Specimen Information Network (ENHSIN) »
    http://www.nhm.ac.uk/science/rco/enhsin/
    Moins de un million de spécimens de 6 institutions; un modèle partagé d'échange de données
  • « Australia's Virtual Herbarium » (non inclus dans ce prototype)
    http://avh.calm.wa.gov.au/
    Ciblant 6 millions de spécimens de six institutions australiennes; un modèle partagé d'échange de données.

Le besoin pour la Passerelle ICSOB

Il existe un besoin évident pour un moteur de recherche qui couvrirait l'ensemble de tous les réseaux de biodiversité et récolterait de l'information sur la localisation Internet des données primaires en biodiversité et sur comment les rejoindre. Très peu des usagers potentiels sont conscients de l'existence de plusieurs réseaux distincts. Aucun des réseaux en existence n'est capable d'interroger tous les autres. Chaque réseau possède sont propre interface usager (souvent expérimental), son propre modèle d'échange de données et ses propres protocoles d'accès. La plupart des modèles sont en évolution et les procédures d'accès changent fréquemment. Certains sites ne se conforment pas aux contraintes des modèles d'échanges de données des réseaux dont ils sont membres (par ex., en plaçant du texte alpha-numérique à la place de nombres, ou des noms de pays à la place de codes ISO). Considérant la dimension encore toute petite des réseaux existants, les requêtes distribuées fonctionnent encore relativement rapidement, mais ceci ne pourra pas durer très longtemps alors qu'augmentera le nombre d'institutions participantes (ainsi que le nombre d'usagers). Les réseaux en existence sont très centrés sur les institutions plutôt que sur les espèces ou leur distribution. Ils affichent généralement de longues listes d'institutions participantes et les usagers doivent sélectionner quelles institutions interroger. Cela est facile lorsqu'il n'y a que 5 ou 6 institutions sur le réseau, fastidieux quand il y en a plus que 10 et proprement ridicule alors que la liste s'allonge. Comme il existe des milliers de collections de spécimens et de dépôts d'observations de par le monde et que de plus en plus seront disponible par ces réseaux, il deviendra rapidement très difficile d'interroger tous les sites potentiels par l'intermédiaire d'une seule requête distribuée. Qui voudrait sélectionner manuellement parmi des centaines de sites pour trouver toutes les récoltes et observations connues d'un papillon en particulier ou d'une espèce envahissante. La communauté à besoin d'un moteur de recherche qui indexe la localisation des enregistrements de données primaires quelle que soit la technologie de réseau, les protocoles de transport, la localisation physique, l'institution détentrice et le modèle de gestion de données à la source. Un bon moteur de recherche devrait fonctionner dans un contexte multilingue et permettre d'accéder aux données par contient, pays, voire état ou province, indépendamment de la langue utilisée sur les étiquettes des spécimens. Le moteur de recherche devrait aussi permettre des points d'entrée par l'intermédiaire de noms vernaculaires quand ils sont disponibles, identifier les fautes typographiques courantes, les synonymes et suggérer de façon automatisée des listes de noms possibles présentés par ordre de leur probabilité d'être correct.

Les moteurs de recherche courants (tel que Google, AltaVista et les autres) n'indexent présentement pas les réseaux de biodiversité. Plusieurs des institutions participantes des réseaux en existence ne désirent tout simplement pas pour le moment voir la totalité de leur contenu indexé pour des recherches plein-texte ou entreposé autre part que sur leur propre serveur. En outre, pour le moment, les moteurs de recherche sont tout simplement bloqués par une caractéristique commune aux quatre réseaux en existence. Chaque réseau est disponible publiquement par l'intermédiaire d'un formulaire d'interrogation qui requiert la formulation d'une requête par un usager et le clic d'une souris sur un bouton d'envoi. Aucun des réseaux ne peut être entièrement visité d'une façon semblable à un site Web conventionnel où chaque page peut être explorée méthodiquement par un programme-robot qui suit simplement des chaînes d'hyperliens reliés à une page de départ. Techniquement cependant, cette difficulté est facile à contourner.

Méthodes

  • Les modèles sous-jacents aux réseaux ont été comparés et la syntaxe d'interrogation appropriée à été dérivée à partir des formulaires publics disponibles sur chacun des réseaux sélectionnés.
  • Comme la majorité des fournisseurs de données ne désirent pas voir leur collections entièrement indexées par les moteurs de recherche, un nombre minimal de champs communs à l'ensemble des réseaux ont été sélectionnés pour construire le prototype d'ICSOB: l'identification taxonomique (habituellement un nom binominal, ou trinominal), une division géographique primaire (habituellement un pays), la date de collection, ainsi que la longitude et la latitude du point de collection (lorsque qu'explicitement disponibles).
  • Chaque réseau a été contacté pour obtenir une permission formelle de procéder avec la construction du prototype d'index. Une programme moissonneur (ou robot) a été développé en vue de fouiller chaque site de chacun des réseaux en passant systématiquement à travers la totalité des données afin de s'assurer que l'ensemble des enregistrements disponibles soient indexés.
  • Les données accumulées par le programme moissonneur ont été décomposées de façon à retenir les champs nécessaires pour l'index, la source des enregistrements, ainsi que la syntaxe d'interrogation nécessaire pour re-diriger les usagers vers la source de l'enregistrement intégral. Les données retenues ont été chargées dans une base de données Oracle.
  • Des tableaux de connexion de données partiellement normalisées ont été développés de façon à pouvoir associer les noms taxonomiques accumulés par le programme moissonneur avec le Système d'information taxonomique intégré (SITI - http://www.scib.gc.ca/pls/itisca/taxaget?p_ifx=scib&p_lang=fr ) et pour réduire le nombre de variations orthographiques dans les divisions géographique primaires. Ces opérations ont nécessité une grande part d'intervention humaine.
  • Une interface publique d'interrogation Web a été écrite à l'aide de PL/SQL et PHP.

Résultats

La Passerelle ICSOB est un moteur de recherche en spécialisé sur les métadonnées des spécimens et observations en biodiversité qui donne accès à approximativement 2,4 millions de fiches biologiques, mises à la disposition du grand public par une centaine d'institutions, à travers trois réseaux d'information en biodiversité. La Passerelle unifie l'accès aux trois réseaux et aux institutions sur chacun des réseaux et connecte les usagers directement aux sources primaires d'enregistrements. Comme une grande proportion des noms récoltés par le programme moissonneur ne se retrouvent pas dans des listes de référence telles que SITI, il est nécessaire de fournir aux usagers un interface d'interrogation directe. Il est possible de retracer toutes les occurrences enregistrées d'un taxon, ou de filtrer par division géographique ou géopolitique primaire. Environ 100 000 noms ont été moissonnés sur les trois réseaux. Les 25  000 noms qui se retrouvent aussi dans SITI sont entièrement intégrés (à partir des sites canadiens de SITI) avec la Passerelle ICSOB et les trois réseaux. Par l'intermédiaire de SITI, les enregistrements de la Passerelle ICSOB sont disponibles soit par leur nom scientifique, soit par un synonyme, soit encore par des noms vernaculaires en trois langues. Des sommaires cumulatifs (comptage) par groupe taxonomique d'enregistrements ICSOB sont disponibles l'intermédiaire de la hiérarchie taxonomique du SITI. Tous les enregistrements ICSOB sont reliés par hyperliens directement à l'étiquette originale telle que produite en temps réel par les institutions détentrices des données. Il est possible de générer dynamiquement des cartes de distribution pour les enregistrements fournis avec des coordonnées explicites de longitude et de latitude. Cliquer sur les points de distribution illustrés sur la carte envoie une requête pour extraire les étiquettes complètes directement aux institutions concernées et tous les résultats sont affichés dans une fenêtre secondaire. Il est aussi possible d'extraire une liste de tous les taxons connus qui ont été récoltés ou observés dans un quadrat de un à quatre degrés autour de coordonnées particulières. Quand une collection ou un serveur cesse de répondre aux requêtes, la Passerelle ICSOP s'ajuste automatiquement et cesse l'affichage de toute référence à ce serveur jusqu'à ce que le service soit ré-établi.

Enseignements tirés

Il existe plusieurs initiatives régionales et internationales pour intégrer l'accès à de l'information biologique en provenance de sources de données distribuées et plusieurs réseaux. La majorité de ces initiatives sont toujours à l'étape de conceptualisation. Quelques unes de ces initiatives incluent (toutes opèrent exclusivement en anglais):

  • « CODATA Working Group on Biological Collection Data Access »
    http://www.bgbm.fu-berlin.de/tdwg/codata/default.htm
  • « Distributed Generic Information Retrieval »
    http://digir.sourceforge.net/
  • « Biological Collection Access Service for Europe (BioCASE) »
    http://www.biocase.org/

Chacune de ces initiatives (ainsi que plusieurs autres non énumérées) pourront bénéficier de l'expérience acquise lors de la construction du prototype de la Passerelle ICSOB. Certainement, la faisabilité d'un moteur de recherche mondial dédié aux données primaires de distribution tel qu'envisagé par GBIF est démontrée par la Passerelle ICSOB. Il serait bien sur possible de faire plus et beaucoup mieux, mais il y aura beaucoup d'obstacles à contourner. Les principaux obstacles sont de nature culturelle. Les propriétaires de ressources informationelles sont encore hésitants à libérer complètement l'accès à leurs ressources et à les partager entièrement. Il y a plusieurs raisons pour cet état de fait et la majorité d'entre elles dépassent le cadre de cet article, mais la qualité des données est une préoccupation majeure. Il y a du progrès, mais beaucoup de temps ainsi que des exemples concrets de réussite seront nécessaires pour stimuler la participation à l'effort communautaire. D'autre points à régler sont le besoin de standards mondiaux établis pour l'entrée et l'échange de données ainsi que le manque d'outils faciles à utiliser pour aider à la correction et au maintien de données anciennes et assurer leur conformité à au moins un standard.

Les enseignements tirés énumérés plus bas ont pour but de faciliter les diverses initiatives dans leur efforts. Les commentaire à propos des différents réseaux ou à propos de collections particulières se veulent constructifs et ne devraient pas en aucun cas être interprétés comme des critiques ou des commentaires négatifs.

Réseaux de biodiversité

  • L'exploration des données et la construction d'une nouvelle couche de métadonnées a été entreprise avec une permission formelle de procéder de la part des trois réseaux suivants. Toute autre activité d'indexation demandera de nouvelles négociations avec chacun des réeseaux.
    • « The Species Analayst (TSA) » (ansi que l'Analyste d'espèces Canada)
    • « Red Mundial de Información sobre Biodiversidad (REMIB) »
    • « European Natural History Specimen Information Network (ENHSIN) »
  • TSA et REMIB sont des systèmes en production. ENHSIN est un projet-pilote initié et développé comme démonstrateur et pour servir de base pour discussion. Ce n'est pas un système en production. TSA utilise présentement le protocole Z39.50, alors que les autres réseaux utilisent des combinaisons des protocoles TCP/IP et HTTP, Les réseaux TSA et ENHSIN peuvent tous les deux fournir des données en format XML. TSA est présentement le seul des réseaux qui permettent d'interroger ses bases de données pour la totalité des éléments (champs) de son modèle.
  • TSA et ENHSIN répondent avec des champs vides (ou éléments manquants dans les sorties de données XML). REMIB utilise des expressions telles que nulo, Restrictado, NDPR pour les éléments de texte, ainsi que des nombres impossible pour les champs numériques (par ex. 99 pour les degrés de latitude et -999 pour les degrés de longitude). L'utilisation de l'élément Restrictado est utile parce qu'elle indiquent qu'il existe de l'information supplémentaire non publique pour ces éléments.
  • Les trois réseaux utilisent présentement entre 16 et 33 éléments (champs) dans leur modèles d'échange de données. Il y a peu de champs obligatoires dans ces modèles. Le prototype de la Passerelle ICSOB se concentre sur l'identification taxonomique, la division géographique primaire, la longitude et la latitude, ainsi que la date de collecte. La discussion plus bas est un compte-rendu des difficultés rencontrées. La diversité des langues est problème important pour la majorité des éléments. Il est difficile d'imaginer que la plupart des pays pourrait accepter de faire leur entrée de données dans un langage standard.

Identification taxonomique

  • Tous les réseaux ont des champs d'interrogation pour les familles, genre et épithètes spécifiques. D'autre niveaux taxonomiques sont disponible pour ENHSIN et TSA, mais sont rarement utilisés. Il existe beaucoup de variation dans la forme des noms scientifiques. Il y a bien sur des variations autour des rangs tels que subsp., ssp., var., f. Il existe aussi d'autres qualificatifs tels que ? , nr., nulo, cf, -cf, unidentified. Ces variations demandent beaucoup d'intervention humaine pour ramener les noms à un format normalisé (mononominal, binominal ou trinominal). Cette opération a été complétée en partiellement pour comparer la liste des noms moissonnés avec celle du SITI. Le résultat garanti une intégration transparente de la Passerelle ICSOB et de SITI lorsque les noms coïncident, mais cela exige une attention soutenue. Par exemple, Anthidium n. sp. 2 "Mex." doit être transformé en Anthidium pour comparaison avec SITI, mais la dénomination originale doit d'être conservée pour fins d'affichage et de connexion à la source originale des données. Le maintien des tableaux normalisé de connexion est difficile et exige une inspection manuelle de tous les noms récoltés par le programme moissonneur.
  • À données inexactes, résultats erronés! Les noms suivants sont un exemples typique des noms récoltés par le programme moissonneur pour un seul et même taxon: Apteronotus bonaparte, Apteronotus bonaparti, Apteronotus bonapartii, Apteronotus bonarparti. Le nombre d'erreurs typographiques sur les étiquettes est étonnamment élevé et démontre amplement le besoin urgent de fichiers de référence taxonomique vraiment complets et mondiaux, ainsi que d'un service automatisé de noms taxonomiques qui fournirait une liste de noms possibles, ordonnée par ordre de probabilité, au moins pour les fautes d'orthographe les plus communes et pour les synonymes. La formulation automatisée de telles listes est loin d'être simple parce que les collections contiennent un grand nombre de noms qui n'ont jamais été publiés et qu'il y beaucoup d'homonymie.
  • ENHSIN supporte un modèle d'échange de données finement disséqué en un grand nombre d'éléments, mais fourni aussi un élément </text> dans le noeud </taxon> du schéma XML. Cette commodité a un effet pervers parce que des collections peuvent choisir de ne pas normaliser leurs données et de les répartir dans les champs appropriés. Par exemple, certains enregistrements sur ENHSIN renferment des copie complètes d'étiquettes dans le champ </text> et aucune information dans les autres champs. Le programme moissonneur du moteur de recherche ne dispose d'aucun point d'attache pour identifier les éléments de données (tels que le nom scientifique et la division géographique primaire) avec certitude et construire la couche de métadonnées. Ces enregistrements ont tout simplement été ignorés par le prototype de la Passerelle ICSOB. Il serait possible de faire usage de ces données par l'intermédiaire d'un moteur de recherche plein texte qui indexerait tous les champs de l'enregistrement. Cela serait meilleur que rien du tout, mais extrêmement inefficace.

Origine géographique

  • Les trois réseaux fournissent différente façons d'interroger les localité géographiques de leurs base de données. Tous les réseaux permettent de faire une requête par "pays", ce que nous appelons "division géographique primaire" parce que beaucoup de collections ont utilisé le champ "pays" pour enregistrer de l'information sur les provinces (ou états), ou autre chose. TSA est le seul réseau à permettre l'interrogation directe de tous ses champs géographiques.
  • Le contenu des divisions géographiques primaires est très complexe. Les noms de pays sont généralement utilisés, mais il existe beaucoup de variation. Par exemple, les variations suivantes existent pour le Canada: Canada (14 sources), CA (3 sources holdings), CAN (une source), Canadá (une source). Similairement pour les États-Unis: US, USA, U S A, U.S.A, U.S.A. ?, U.S.A., Usa`,Usa?` etats-unis. Il y a aussi le problème des pays qui n'existent plus (URSS, Tchécoslovaquie, Yougoslavie). Les noms de pays sont souvent dans la langue de l'institution à la source des données, mais pas nécessairement. Une solution partielle est d'utiliser un standard pour les noms de pays tel que ISO 3166. ENHSIN fournit une liste d'interrogation basée sur le standard de noms de pays ISO 3166. Cependant, le fardeau d'entrer les noms et de les apparier au standard repose entièrement sur les fournisseurs de données. Une des collections d'ENHSIN a opté d'emmagasiner une version modifiée des noms de pays dans la liste, plutôt que les codes ISO normalisés. Cela rend la collection en question invisible aux requêtes ISO 3166 parce que les enregistrements contiennent des chaînes de caractères qui ne correspondent pas au standard. Tout ceci ouvre la question de savoir jusqu'à quel point des données peuvent être transformées pour fins de normalisation.
  • De toute évidence, les noms de pays n'apparaissent pas généralement pour les collections effectuées dans les eaux internationales, ou dans de vastes étendues d'eau (golfes, mers, océans). Ces échantillons sont souvent pourvus de données descriptives telles que Ocean Indien Sud, Off Chile, Mediterranean Sea, ou tout simplement pourvus de coordonnées géographiques sans nom de division géographique primaire.
  • La dérivation d'une couche homogène de métadonnées pour les localités géographiques à partir des enregistrements moissonnés demande énormément d'intervention humaine et un effort constant pour appareiller toutes les variations (incl. les abréviations, la diversité des langues, les textes descriptifs tels que Southern Pacific Ocean) à un standard quel qu'il soit.
  • L'appariement de noms de pays qui n'existent plus à des noms de pays actuels demandera beaucoup d'effort et dans plusieurs cas sera simplement impossible sans considérer le reste de l'enregistrement ainsi que des sources supplémentaires.

Coordonnées géographiques

  • Plusieurs enregistrements sont fournis par les institutions avec des coordonnées géographiques. TSA et ENHSIN fournissent les coordonnées en degrés décimaux. REMIB utilise les degrés, minutes, secondes et ces données doivent être préalablement converties afin de pouvoir les pointer dynamiquement sur une carte. Seul TSA permet d'interroger les bases de données par coordonnées géographiques. Associer les enregistrements REMIB ou ENHSIN aux points de la carte exige d'extraire la totalité des points pour une espèce donnée puisque l'extraction par coordonnées n'est pas possible sur ces réseaux.
  • TSA fournit un requête par boîte englobante. Cette fonction très puissante permet de retracer tous les spécimens et toutes les observations connues pour un quadrat géographique défini.
  • Il existe plusieurs erreurs communes sur les coordonnées géographiques. Une erreur très fréquente est d'omettre le signe moins (négatif) pour les collections de longitude ouest, résultant en des cartes sur lesquelles des récoltes nord américaines se retrouvent pointées en Europe. Dans beaucoup d'autre cas, l'une ou les deux coordonnées sont de toute évidence erronées (points dans le mauvais pays, organismes terrestres dans les océans). Certain sites utilisent la valeur zéro (nulle), présumément pour signifier des coordonnées manquantes. Tous ces enregistrements se retrouvent pointés à l'équateur sur le méridien de Greenwich. La composante de génération de carte de la Passerelle ICSOB peut ici servir à aider dans la vérification de points douteux.

Dates

  • Les trois réseaux ont des élément distincts pour année, mois et jour. Outre les valeurs manquantes ou nulles, REMIB utilise des années impossibles, présumément pour signifier des données manquantes (par. ex. Année =9999). D'autres dates non standard (telles que "purchased in 1960") sont aussi fréquentes.
  • Occasionellement, des nombres étranges, ressemblant à de curieuses dates en format Julien, ou à la forme canonique interne de mesure du temps sous UNIX (par ex. 3157648) se retrouvent dans le champ d'année.

Recommandations

Pour que GBIF puisse répondre à une question aussi simple que « Où cette espèce a t'elle été trouvée? », beaucoup plus de données et des moteurs de recherche beaucoup plus performants seront nécessaires. Les recommandations suivantes sont formulées afin de faciliter les développements futurs.

  • Les trois réseaux couverts par le prototype de passerelle ICSOB utilisent des modèles d'échanges de données qui varient de 16 à 34 éléments. La dérivation d'une couche de métadonnées pour seulement quatre thèmes met en évidence de nombreux problèmes avec les données déjà disponibles et requière une dose considérable d'intervention humaine et d'interprétation. Plusieurs initiatives régionales et internationales sont en cours pour définir les structures théoriques idéales pour capturer l'information sur les collections digitalisées de spécimens et d'observations. Certains de ces modèles sont probablement très détaillés. En guise de confrontation avec la réalité, il est important de noter qu'un degré important d'intervention humaine est requis pour homogénéiser 6 ou 7 champs couvrant 4 thèmes. Un modèle standard opérationnel devra fournir aux institutions gestionnaires de données un système qu'il possible de gérer. Si le système est trop complexe (contenant un trop grand nombre d'éléments), cela fournira une raison aux détenteurs de données pour ne pas participer à l'effort collectif. S'ils désirent participer, le degré de dissection des éléments de données ne doit pas dépasser certaines limites raisonnables parce que le personnel dédié à l'entrée de données n'est généralement pas expert en taxonomie ou en biologie. Plusieurs institutions ont déjà développé leur propre système et ne participeront pas aux réseaux si les standards d'échanges de données sont trop complexes. La majorité des institutions ne seront pas en mesure de retravailler leur information déjà digitalisée. Il est improbable qu'un modèle d'échange de données sur les spécimens et les observations biologiques qui contiendrait plus de 50 éléments puissent être fonctionnel à court terme.
  • Un élément "Date d'insertion ou de mise-à-jour" (timbre- ou horodateur) devrait être obligatoire pour chaque enregistrement. Présentement, aucun des réseaux ne supporte ce champ (proposé cependant comme nouvel élément dans la version préliminaire du Darwin Core V.2 de TSA). Sans ce champ horodateur, il sera difficile pour les moteurs de recherche de rester à jour sans réimporter la totalité des enregistrements d'une collection particulière à intervalles périodiques. Par ex., une des plus grandes collections disponible en ligne présentement (INBIO - Costa Rica) sert plus de 2,3 millions de spécimens. Sans un champ horodateur interrogable, il sera nécessaire de réimporter la totalité des enregistrements simplement pour vérifier s'il y a eu un changement depuis la dernière visite du programme moissonneur. Les moteurs de recherche pourront beaucoup plus facilement être maintenus à jour s'il leur est possible d'interroger la base de données par date d'insertion ou de modification. Le temps de latence entre la modification d'un enregistrement et la mise-à-jour de l'index pourrait être réduit considérablement, voire éliminé. L'intensité du trafic sur les réseaux et la charge du programme moissonneur sur les serveurs serait d'autant réduite.
  • Un identificateur d'enregistrement unique devrait être un élément obligatoire pour permettre aux moteurs de recherche et aux usagers de lancer une requête ciblée sur un enregistrement en particulier. Pour le moment, la recherche doit être basée sur une clé incluant le réseau, l'institution détentrice, la collection et finalement l'enregistrement individuel, mais il y a encore une possibilité d'ambiguïté. Plusieurs des collections n'ont pas d'identificateur d'enregistrement unique. Ni ENHSIN, ni REMIB ne permettent de chercher les enregistrements par identificateur d'enregistrement. Sans un identificateur unique, il est difficile pour un moteur de recherche d'orienter les clients vers des enregistrements précis chez les détenteurs de données.
  • Il est important de rendre disponible les collections, même si une partie de l'enregistrement est confidentiel. En utilisant une chaîne de caractères impossibles telle que -9999 (soit comme une valeur numérique, soit comme une valeur textuelle) pour les champs à diffusion restreinte, les institutions détentrices d'enregistrements peuvent exposer une information minimale sur des taxons qui sont autrement disponibles seulement à un groupe d'expert autorisés. Ceci est plus avantageux que pas d'information du tout.
  • Il serait très utile si chacun des réseaux de biodiversité permettaient à l'ensemble des usagers de soumettre des requêtes pour n'importe lequel des champs de leur modèle de données, au lieu de restreindre les recherches à un nombre limité d'éléments prédéterminé. Pour le moment, seulement TSA offre cette fonctionalité.

Français | Contact Us | Help | Search | Canada site
Coming Events | About CBIF | Links | Reports and Publications | Home
Date Modified: 2009-01-12