| ISSN 1201-7302 | Cursus vol. 7 no 1 (printemps 2004) |
Dumais, Claude.
Cursus est le périodique électronique étudiant de l'École de bibliothéconomie et des sciences de l'information (EBSI) de l'Université de Montréal. Ce périodique diffuse des textes produits dans le cadre des cours de l'EBSI.
Courriel : cursus@ebsi.umontreal.caTout texte demeure la propriété de son auteur. La reproduction de ce texte est permise pour une utilisation individuelle. Tout usage commercial nécessite une permission écrite de l'auteur.
Deux enjeux majeurs affectent le monde du catalogage : l'apparition d'une nouvelle variété de ressources en documentation et ses implications sur le catalogage et la normalisation de l'organisation de l'information face aux attentes de l'usager. Un domaine traverse toutes les préoccupations qui sont aujourd'hui reliées à ces enjeux : les technologies de l'information et des communications.
Le présent texte expose brièvement une solution apportée à ces nouvelles préoccupations. C'est une réponse aux besoins de l'accessibilité bibliographique des nouvelles ressources et de l'offre d'un système de repérage adéquat qui puisse répondre aux exigences de la recherche d'information d'aujourd'hui, particulièrement avec la présence du Web. Il s'agit du langage XML qui intéresse plusieurs chercheurs dans le domaine des sciences de l'information, notamment, et c'est l'objet de ce texte, en ce qui a trait à la complémentarité ou au changement relativement au format MARC.
En premier, nous exposons très succinctement ce qui constitue le format MARC et l'évolution que doit suivre celui-ci en rapport aux changements imposés par le monde de l'information. Par la suite, nous présentons le langage XML pour ensuite le mettre en relation avec le MARC. Nos observations sur ces deux formats nous amènent finalement à examiner les implications d'une telle transition, autant du point de vue des enjeux de la mobilité de l'information que de sa disponibilité.
Le format MARC est un ensemble d'éléments permettant la présentation normalisée des descriptions bibliographiques selon un système de structure des données (ISO 2709), de leur contenu et des liaisons entre ces données. Le déploiement de champs, d'indicateurs et de sous-champs supporte les données bibliographiques afin que cette information soit configurable, repérable et manipulable. Ce système assume les multiples facettes d'une ressource d'information à travers une multitude de supports médiatiques. En conséquence, le MARC autorise les échanges des fichiers bibliographiques entre les systèmes informatisés d'information bibliographique, notamment les catalogues de bibliothèques. Il est en constante évolution afin de s'adapter, tant bien que mal, aux nouveaux moyens d'exprimer l'information.
Afin de cataloguer un maximum de type de documents différents et afin d'inclure les nouveaux types de ressources électroniques, il a fallu imposer des transformations au format MARC pour qu'il soit compatible avec ces nouvelles réalités. Ainsi, depuis la fin des années 1970, divers comités de spécialistes, notamment de l'American Library Association, se sont penchés sur la mise à jour du format MARC pour le rendre efficace relativement à ces nouvelles ressources électroniques, surtout en ce qui concerne les ressources dites en ligne. On a, à titre d'exemple, créé un champ afin d'inclure les adresses URL dans les descriptions bibliographiques pour permettre de retracer une version en ligne d'un document ou encore pour retrouver le texte (et/ou la présentation multimédia) d'une ressource électronique présentée.
Toutefois, la constante croissance des ressources électroniques rend leur application pour le catalogage difficile à suivre. Il devient même impossible d'appliquer systématiquement les règles de catalogage à l'apparition des nouvelles ressources électroniques. De plus, selon Dorner (2000: 78), les usagers seraient de plus en plus insatisfaits de l'approche linéaire pour le repérage de l'information, approche laissée par le fonctionnement devenu obsolète des fiches imprimées de catalogue et des répertoires imprimés de catalogues. Trouver, identifier, sélectionner et obtenir l'information n'a plus la même signification aujourd'hui avec les avancements technologiques dans le repérage de l'information. Par exemple, les concepts d'entrées principales et secondaires nous limiteraient aux choix d'accès offerts par le catalogue local comme ça se faisait à l'époque des catalogues imprimés.
Le désir de se procurer la documentation la plus précise selon ses besoins pousse les services de repérage de l'information, telles les bases de données, à offrir des fonctions plus spécialisées qui se trouvent davantage plus à l'opposé du principe des catalogues de bibliothèque qui, dans les circonstances, peuvent être qualifiés d'impersonnels. Une des raisons de cette affirmation, selon Dorner (2000: 79), est que le catalogue n'offre pas encore tout le potentiel d'interopérabilité avec d'autres ressources de références bibliographiques, même si plusieurs améliorations sont en cours comme la technologie de l'OpenURL.
Voici les principales lacunes observées dans le format MARC :
Le XML est un métalangage permettant, entre autres, de générer d'autres langages. Le sens du XML est celui que l'on donne à des balises par rapport à leur contenu et il permet avant tout à des ordinateurs de communiquer entre eux. Il est apparu pour compléter le HTML qui avait lui aussi été originalement conçu pour décrire la structure des documents, sauf que les balises de mise en forme n'ont pas tardé à s'imposer.
Fondamentalement, le XML a été développé par le consortium W3 afin de pallier la complexité de la norme SGML seule et d'établir une interopérabilité entre le SGML et le HTML. Il offre un cadre pour la description des données structurées et en facilite l'enchâssement dans des balises attitrées. C'est ce que l'on appelle, dans le monde de l'informatique, un métalangage, puisqu'il propose une manière de présenter la disposition des données, le format de l'information, et non l'information elle-même.
Voici les grandes qualités du XML :
L'aspect significatif de l'utilisation du langage XML pour le traitement des données bibliographiques, comme pour tout autre genre de données, est qu'il permet la démarcation entre le contenu, la présentation et la liaison. (Johnson, 2001: 84) Ainsi, chacun de ces aspects, d'un même document par exemple, peut être traité séparément pour une exploitation maximale. De plus, son intégration est multi-fonctionnelle puisque ses données peuvent être réutilisées par différentes applications logicielles.
Nous le verrons plus loin, un des grands avantages du XML dans le domaine du catalogage est que le résultat d'une recherche d'un utilisateur n'a pas nécessairement à être formaté en HTML puisqu'il passe directement au logiciel client de l'utilisateur afin que celui-ci puisse en disposer selon ses besoins. Ainsi, l'utilisateur pourra organiser les informations recueillies, à titre d'exemple, en format ISBD, en braille, en audio ou encore laissées telles quelles afin qu'elles soient traitées par des outils de catalogage ou d'indexation spécialisés.
La place nous manque ici pour expliquer les diverses composantes du XML, mais il est important de préciser pour la compréhension que, avant de développer le langage XML pour la description des données bibliographiques, il faut développer une structure commune qui va décrire le format des données : c'est le rôle de la Définition du type de document (Document Type Definition : DTD). Dans le cas du catalogage, ce dernier devra être conçu pour permettre la translitération du format MARC au langage XML et devra reconnaître la structure des règles de catalogage du RCAA2 afin de le décrire via le XML. Précisément, selon Fiander (2001: 20), la translitération des champs et des sous-champs du MARC directement vers la DTD du XML est la meilleure méthode de transfert afin de préserver la structure exacte du format MARC. C'est aussi l'approche préconisée par la Library of Congress pour sa simplicité d'appréhension. Par conséquent, l'avantage principal de cette méthode en parallèle est de s'assurer que les connaissances du catalogueur vis-à-vis du MARC soient respectées mais surtout exploitées. Il faut aussi souligner qu'il sera possible ainsi de fonctionner à l'inverse alors que, par exemple, un catalogue traditionnel pourrait recevoir des notices bibliographiques réalisées en XML, ce qui peut s'avérer nécessaire durant une période de transition dont on ne peut pas encore prévoir la fin.
Améliorer la localisation de l'information et le repérage des ressources sur le Web ont été les premières préoccupations des spécialistes de l'information vis-à-vis de leur intérêt envers le langage XML. En particulier, certains milieux de la bibliothéconomie se sont intéressés à la manipulation des métadonnées pour bonifier l'efficacité de leur catalogue de bibliothèque en ligne.
Pour la première fois depuis que l'idée a germé, il semble possible de pleinement réaliser le rêve du contrôle bibliographique universel. La fusion du format MARC et du langage XML rend davantage possible ce rêve en érigeant un cadre numérique commun d'envergure internationale de fichiers bibliographiques disponible à l'extérieur du milieu restreint des catalogues de bibliothèque.
Les spécialistes de l'information se rendent de plus en plus compte du potentiel d'automatisation des procédés bibliothéconomiques de recensement et de catalogage bibliographiques. Comme le souligne Dorner (2000: 77):
The development of digital information resources has provided cataloguers with many challenges and with many opportunities to become involved in creating new tools and new standards for the description and discovery of these resources.
D'un autre côté, les bibliothèques ne sont plus le seul diffuseur de l'information académique et le catalogue local de la bibliothèque n'est plus la source première d'accès à l'information bibliographique. Il y a donc un besoin de changement qui s'impose pour les bibliothèques si elles veulent demeurer une ressource viable face aux nouvelles technologies de l'information. Prendre en considération un langage tel que le XML pour représenter un catalogue de bibliothèque en ligne sur le Web devient alors une solution de complémentarité au format MARC, sans nécessairement le remplacer.
Toutefois, la demande pour une telle transition est encore embryonnaire. Comme nous le verrons plus loin, il y a bien la National Library of Medecine qui organise son catalogue appelé MEDLINE en XML et aussi le NASA Astrophysics Laboratory et le Department of Health, tous trois aux États-Unis, mais il demeure qu'au printemps 2002, selon les observations de Danskin (2002: 3), les distributeurs de système de traitement du format MARC étaient toujours très sollicités, surtout en ce qui a trait à la gestion des collections.
Toujours selon Danskin (2002: 3), il y a la place pour les deux langages XML et MARC, ce qu'il appelle une " mixed economy ", tout dépendant des secteurs d'activité dans le monde des ressources bibliographiques. On assisterait à une intégration des deux formats à la recherche d'une co-habitation efficace. Ainsi, le langage XML pourrait englober le format MARC sans l'invalider, ce qui permet alors son utilisation, plus flexible avec le XML, dans différents contextes, donc pour différentes utilisations spécifiques. De plus, intégrer le format MARC au langage XML donne la possibilité d'élargir l'offre des données bibliographiques à la communauté des utilisateurs, peu importe leur location. En intégrant les catalogues au Web, la visibilité et l'exploration des données en sont largement facilitées. Par conséquent, le XML peut s'avérer très utile à véhiculer l'information (son contenu) entre les bibliothèques et, non seulement les usagers, mais aussi les maisons d'édition, les centres de ressources, les librairies, etc.
En gros, quatre tendances, plus ou moins divergentes, se dessinent pour intégrer l'information bibliographique dans le langage XML (de Corvalho et Cordeiro, 2002: 2) :
Nous l'avons vu, convertir des fichiers de catalogue en XML libère ceux-ci du catalogue en ligne (OPAC). Ceci permet la présentation des ressources du catalogue sur le Web, augmentant ainsi leur visibilité et leur accessibilité. À titre d'exemple, au lieu de procéder à une recherche bibliographique dans le catalogue seul de la bibliothèque d'une université, le chercheur peut utiliser le moteur de recherche du site Web de cette même université pour réaliser le même type de recherche : il fait une recherche combinée sur les informations disponibles en HTML sur le site et sur les données de l'OPAC grâce à la présence des métadonnées en XML.
Cette méthode d'accès des données vient résoudre, en partie du moins, le problème de sous-utilisation des ressources du catalogue. Parce que celles-ci se retrouvent souvent présentées de manière traditionnelle et que l'utilisation du catalogue demande davantage de manipulation, voire à l'occasion certaines connaissances techniques, l'application Web des fichiers bibliographiques permet leur consultation sur plusieurs points d'accès virtuels, en leur fournissant une meilleure visibilité dans des conditions d'accès donc plus pratiques et maniables.
Le projet MEDLINE de la Stanford University vise justement à convertir les fichiers MARC dans le langage XML afin de développer une nouvelle norme pour la présentation des données bibliographiques et d'autorité sur le Web (Pour plus d'informations, voir le site Web). En appui au projet, les responsables dénoncent le travail acharné pour appliquer les règles de catalogage du RCAA2 et le chemin tortueux par lequel le MARC est implémenté.
Le directeur du projet, Dick R. Miller, souligne que l'information bibliographique (en anglais : "library information") est sous-utilisée dû à sa non-concordance avec l'ensemble des ressources sur le Web. Il y a, selon lui, un réel danger que cette information devienne marginalisée. (Johnson, 2001: 82)
Toutefois, les opposants à ce projet de conversion présentent les points suivants :
Entre les deux conceptions, on l'a vu, il y a la possibilité d'incorporer le format MARC à l'intérieur du langage XML sans en dénaturer son essence propre puisque le RCAA2 peut fonctionner dans le cadre du XML. Ce n'est pas à cause des métadonnées que le catalogage ne trouvera plus son utilité. Même s'il faudra réaliser de sérieux ajustements, il reste néanmoins que la qualité des normes proposées (RCAA2, MARC, LCSH), malgré leurs lacunes, demeure incontestable dans l'effort commun pour le repérage de l'information, l'échange de données bibliographiques et la quête vers un minimum de redondance.
Finalement, un autre enjeu majeur avec le langage XML pour la disponibilité de l'information bibliographique est de rendre accessible des données qui sont sous des plates-formes qui ne rencontrent pas les normes de la technologie actuelle, notamment en ce qui a trait au Web. Plusieurs systèmes dits patrimoniaux, c'est-à-dire les systèmes informatiques issus d'une génération précédente mais qui continuent d'être utilisés après une adaptation nécessaire avec ceux dits plus contemporains, demeurent très utiles et pertinents du point de vue de leur valeur informative. Ainsi, la possibilité d'"interopérabiliser" ces systèmes avec les NTIC est une solution enviable afin de ne pas perdre les données qu'ils contiennent, en ce sens que ces données sont toujours significatives aux yeux de la communauté scientifique (ou académique) internationale et qu'ils peuvent même être considérées comme une valeur ajoutée sur le Web.
Un changement dans le format MARC s'impose afin de le rendre pleinement opérationnel vis-à-vis des importantes transformations sur le repérage et l'utilisation des données bibliographiques. Doit-on le faire disparaître afin de satisfaire les besoins des nouvelles technologies (surtout les ressources électroniques) et de leurs programmes, ou peut-on "domestiquer" le format MARC pour qu'il puisse s'intégrer aisément aux nouveaux supports et satisfaire adéquatement les besoins de plus en plus complexes concernant la finalité des catalogues en ligne ? Est-ce que le XML peut s'avérer une solution à la mode de l'informatique actuelle, donc temporaire, ou peut représenter une base durable pour une structure d'information bibliographique potentiellement valable, voire incontournable ?
Une chose est sûre, c'est que le format MARC, tel qu'il est présentement, ne sera plus à la hauteur des besoins exprimés dans notre société de l'information où la valeur de cette dernière réside justement dans l'efficacité stratégique de diffuser l'information. Pour suivre ce bouleversement apporté par l'instantanéité et l'ubiquité des NTIC, il devient primordial d'implanter des changements importants qui viendront au minimum compléter les lacunes observées vis-à-vis du format MARC, notamment en ce qui concerne les ressources électroniques.
Le futur des services de bibliothèque en ligne dépasse largement la seule interface Web d'un catalogue de bibliothèque. Il concerne davantage l'adoption d'une technologie Web permettant la découverte et le repérage de l'information bibliographique comme c'est le cas avec les pages Web actuelles. Comme nous l'avons présenté, avec le langage XML, l'ouverture complète sur le Web des catalogues en ligne est possible et permettra une pleine interopérabilité dans la recherche de l'information. Le MARC-XML aura pour conséquence une meilleure diversification du rôle des bibliothèques par la mise en disponibilité de services complémentaires, tous accessibles à l'utilisateur à partir de son navigateur. De ce fait, la pleine pertinence des services bibliothécaires risque d'être moins remise en cause et intègrera davantage les professionnels de la documentation en tant qu'acteurs indispensables à la société de l'information.
de Carvalho, Joaquim; Cordeiroo, Maria Inês. "XML and bibliographic data: the TVS (Transport, Validation and Services)". In Library for Life: Democracy, Diversity, Delivery, 68th IFLA Council and General Conference, Glasgow, August 18-24, 2002. (Page consultée le 8 novembre 2003), [En ligne]. URL : http://www.ifla.org/IV/ifla68/papers/075-095e.pdf.
Danskin, Alan. "Today MARC Harmonisation, tomorrow the World Wide Web: UKMARC, MARC21, XML and ONIX". Catalogue & Index, no 143, Spring 2002, p. 1-3.
Dorner, Dan. "Cataloguing in the 21st century - part 2: digitization and information standards". Library Collections, Acquisitions, & Technical Services, no 24, 2000, p. 73-87.
Fiander, David J. "Applying XML to the Bibliographic Description". Cataloging & Classification Quarterly, vol. 33, no 2, 2001, p. 17-28.
Gorman, Michael. "Metadata or Cataloguing? A False Choice". Journal of Internet Cataloging, vol. 2 no 1, 1999, p. 5-22.
Johnson, Bruce Chr. "XML and MARC: Which is "Right"?" Cataloging & Classification Quarterly, vol. 32, no 1, 2001, p. 81-90.
Ladd, Éric et al. Développement Web avec XHTML, XML, JavaScript, DHTML et Java 2. Paris: CampusPress, c2001. 1050 p.
McCallum, Sally. Extending MARC for Bibliographic Control in the Web Environment: Challenges and Alternatives. Org.: Library of Congress. (Page consultée le 7 novembre 2003), [En ligne]. URL : http://lcweb.loc.gov/catdir/bibcontrol/mccallum_paper.html.
Medeiros, Norm. "Liberating online catalog records". OCLC Systems & Services , vol. 16, no 3, 2000, p. 100-101.
Québec. Office de la langue française. Dictionnaire d'Internet, de l'informatique et des télécommunications . Québec: Les publications du Québec, 2001, 1446 p.
| EBSI > Cursus > Vol 7 no 1 > Dumais | Dernière mise à jour : août 2004 |