2015

oct.

L’EMI en partage : essai de cartographie des acteurs

Elisabeth SCHNEIDER, Alexandre SERRES, Angèle STALDER

Note : la version intégrale de ce texte est disponible sur ArchiveSic (http://archivesic.ccsd.cnrs.fr/sic_01217549/document) et les fichiers qui l’accompagnent sont disponibles sur le Carnet du GRCDI ( http://grcdi.hypotheses.org/546).

Conférence en vidéo sur : https://www.canal-u.tv/chaines/apden-ex-fadben/seconde-journee-10-octobre-2015/l-emi-en-partage-cartographie-des-acteurs

Introduction

Le rapport de la concertation sur la future Loi de refondation, paru début 2013, inclut l’éducation aux médias et à l’information dans un paragraphe sur « apprendre le numérique ». Lorsqu’est organisée la Conférence nationale « Cultures numériques, éducation aux médias et à l’information », Jean-Louis Durpaire évoque l’éducation à l’information née d’une réflexion commune entre un groupe de travail de l’IGEN et de l’Ifé depuis mars 2012. Eric Bruillard, lui, parle d’« éducation à l’information et aux médias » dans le mot introducteur de la conférence et utilise information et informatique mais non médias dans la suite. L’annonce de la loi sur la refondation de l’école mentionne tout d’abord « une véritable éducation aux médias ». Mais la conférence restera comme l’EMIConf. Ces éléments montrent que l’expression et le sigle qui semblent consacrés aujourd’hui, « EMI », ont oscillé entre différents domaines jusqu’à ce que l’édiction de la loi les stabilise.

Cependant, dès les premiers temps, encouragés par la demande de participation des organisateurs à l’EMIConf, des professionnels, des institutionnels ont commencé à publier, mettre en ligne, discuter ce qui semblait relever de ce nouveau domaine d’enseignement. Et rapidement des questions polémiques se sont fait jour : qui est chargé de cet enseignement ? A quel autre domaine peut-on/doit-on le rattacher ? Comment le définir, le distinguer, le rapprocher de l’EAM ? Pour un lecteur, professeur documentaliste ou de discipline qui chercherait à comprendre de quoi il s’agit, cela constitue un ensemble foisonnant, pluriel et insaisissable.

Il nous a semblé que la méthode de recherche la mieux adaptée à la mise en visibilité des acteurs de l’EMI sur le web était une cartographie : pour les représenter tout d’abord, puis pour mieux comprendre les stratégies d’acteurs, leurs différentes conceptions de l’EMI, les variations dans les définitions, leurs manières de s’impliquer, les différents niveaux d’échelle de leurs interventions. Dans quelle mesure les acteurs en ligne configurent le champ de l’EMI et contribuent à le définir ? Quels liens s’établissent entre des acteurs de natures diverses proposant des ressources différenciées ? Que nous dit cette cartographie d’un domaine d’enseignement en émergence ?

Après avoir explicité notre démarche méthodologique, nous essaierons de montrer comment les diverses publications contribuent à délimiter des espaces de l’EMI en les référant à des acteurs, des enjeux, des textes scientifiques, et ainsi comment se constituent des « acteurs-réseau » de ce domaine.

En explorant rapidement le web avec pour requête « EMI », nous avons identifié des hauts-lieux de diffusion et de discussion, d’autres moins visibles mais retrouvés régulièrement dans les résultats ou les documents. Cependant, comment aller au-delà du simple repérage et mesurer cette dimension du réseau ? Ce sont les travaux sur les acteurs-réseaux du sociologue Bruno Latour qui ont répondu à notre interrogation.

Selon Latour, est un acteur celui qui dit ou apporte « quelque chose, qui fait quelque chose qui fait la différence ». Il n’est pas obligatoirement un être humain, mais une entité qui peut être un dispositif, une institution, qui contribue à configurer le réseau dans lequel il s’inscrit, qui contribue à le faire évoluer en agissant.

Associée à la notion d’acteur, il faut donc comprendre celle de réseau, nécessaire quand il s’agit d’explorer des contenus sur le web. Un réseau est constitué de nœuds que sont les acteurs, les sites par exemple, et de liens. Le réseau produit une réalité qui est plus que la juxtaposition des liens. Les nœuds ont un impact les uns sur les autres et les interrelations configurent le réseau en mode dynamique : de nouveaux liens peuvent apparaître, certains se renforcer, etc.

Brève présentation de la démarche

Comment cartographier les acteurs de l’EMI et leurs relations, identifier les pôles les plus influents, les catégories d’acteurs présentes ? Le recours aux outils d’exploration et de cartographie du web s’est avéré ici indispensable, un travail purement manuel étant littéralement impossible. Ces outils sont-ils pour autant la panacée ? Évidemment non, et leur utilisation exclusive signifie par exemple un abandon de fait de tout document non accessible sur le web. De plus, ces outils ne portent pas sur l’analyse des contenus diffusés, mais sur les relations entre ceux qui les diffusent. Une fois ces deux limites méthodologiques rappelées, quelle a été notre démarche ? Schématiquement, on peut y distinguer quatre grandes étapes, assez classiques :

la collecte et la constitution du corpus ;
l’affinement, la description, le traitement de celui-ci ;
le paramétrage et la production de cartographies ;
l’interprétation de leurs résultats.

Trois outils ont été successivement utilisés :

un gestionnaire de signets, Diigo, pour commencer à constituer « à la main » un premier noyau de sites et de ressources web ;
un outil permettant la constitution semi-automatique de corpus et l’établissement de cartographies des liens entre sites, Hyphe, outil développé par le MediaLab de Sciences Po ;
un outil de cartographie et de visualisation, Gephi, outil en open source.

Quel corpus ?

Trois étapes jalonnent l’élaboration du corpus : la collecte, le traitement, la description. D’abord la collecte. Étant donné les délais assez courts qui nous étaient impartis, ce recensement a été très sélectif. En effet, nous avons réduit notre sélection aux acteurs (humains et non-humains) les plus impliqués dans l’EMI. D’autres critères de sélection se sont ajoutés :

un critère géographique : nous avons limité la recherche aux publications d’acteurs français et d’acteurs francophones importants ;
un critère temporel : nous sommes partis de la Loi d’orientation de 2013 instituant l’EMI.

La recherche des textes, ainsi que leur qualification, ont été conduites de façon collective à l’aide de Diigo. Il s’agissait de capitaliser les textes et de les indexer. Nous avons modifié systématiquement le résumé généré automatiquement en élaborant un cadre descriptif pour disposer d’une grille d’analyse commune. Le choix des tags a également fait l’objet d’une méthodologie : qualifier systématiquement l’acteur, distinguer dans le contenu ce qui relève de l’EMI, de l’EAM (Éducation aux Médias) et de l’EAI (Éducation à l’Information), mais aussi de la culture de l’information et de la culture numérique.

147 références, collectées de juillet à fin août 2015, ont constitué ce premier corpus, où nous avons constaté la prédominance de textes issus de la sphère professionnelle (54), une faible représentation des textes institutionnels (21) et des textes scientifiques (15).

Hyphe et la méthode de collecte des sites

Qu’est-ce que la cartographie du web ? Il semble important de fournir ici quelques points de repère théorique et méthodologique sur ce domaine de recherche, en plein essor depuis plus d’une dizaine d’années.

Issue du croisement de plusieurs disciplines et axes de recherche (la scientométrie, l’étude des réseaux, l’étude de l’hypertexte, la théorie des graphes, l’approche de Latour-Callon sur les controverses, etc.), la cartographie du web vise à fournir une visualisation d’un corpus de sites web, en se fondant sur l’élément essentiel de la morphologie du web : les liens hypertextes. Elle repose sur un principe assez simple, rappelé par Guillaume Sylvestre : « La cartographie du web ou des réseaux sociaux s’appuie sur l’idée que les liens créés sur le web entre différents acteurs (sites web, comptes twitter…) peuvent être perçus comme des liens sociaux » [1]. Faire un lien d’un site web A vers un site web B n’est pas seulement une opération technique, c’est la trace d’une interaction sociale et documentaire. Or de nombreuses études ont mis en évidence une particularité très intéressante de ce réseau de liens hypertextes, soulignée par Marta Severo : « L’intérêt de cette technique dérive de deux régularités observées maintes fois dans la pratique de la création de liens hypertextes :

les auteurs de sites web ne citent d’autres sites que s’ils partagent un intérêt thématique ou social ;
les auteurs de sites web ne citent pas les sites qui ont un point de vue opposé au leur, même ceux traitant des mêmes thématiques. » [2]

Autrement dit, « Qui se ressemble se connecte », selon la formule de Franck Ghitalla, l’un des pionniers de la cartographie du web. Le principal objectif de celle-ci est donc de « visualiser le web de façon synoptique pour formuler des hypothèses sur le positionnement des acteurs » [3] , comme le souligne Mathieu Jacomy, autre pionnier de cette discipline et co-concepteur des outils Navicrawler, Gephi et Hyphe.

Deux premières notions sont essentielles à comprendre : les domaines et les agrégats. Ghitalla et Jacomy parlent de domaine « pour désigner l’ensemble des ressources qui parlent d’une même chose, quelle qu’elle soit. » [4].
Ainsi peut-on parler du « domaine de l’EMI », pour désigner l’ensemble des sites et des ressources du web qui traitent de l’EMI. Mais un domaine ne forme pas toujours un « agrégat » : « La théorie des agrégats, issue de travaux statistiques probabilistes sur l’étendue et la structure du web, stipule que les documents qui traitent du même sujet ont une plus forte probabilité d’être connectés (par des liens hypertextes). Les sites d’un même domaine sont souvent connectés, et forment ainsi ce qu’on appelle un "agrégat", centré sur une thématique » [5]. Un agrégat recouvre donc un ensemble de sites traitant d’un même sujet, plus ou moins fortement connectés.

Autre élément à comprendre : les travaux sur la morphologie du web « montrent que le web est loin d’être homogène et continu : il est au contraire fortement structuré et hiérarchisé ; il possède des couches très visibles et bien connectées et d’autres plus profondes et invisibles » [6] . Ghitalla parle de « modèle en couches », pour désigner la structure du web, composée de trois grandes couches :

la « couche haute » est constituée des grands sites génériques, qui dominent le web et sont omniprésents sur de très nombreux sujets (Google, Wikipédia, les grands sites institutionnels, gouvernementaux, etc.) ;
la « couche intermédiaire » est la plus intéressante, car précisément constituée de ces agrégats, des communautés en ligne, des réseaux de sites interconnectés ; c’est cette couche du web qu’il s’agit d’explorer pour cartographier un agrégat, par exemple sur l’EMI ;
enfin la « couche profonde », constituée des bases de données, qu’on appelle aussi le web invisible.

La cartographie du web repose sur deux types d’outils : d’abord des outils de type « crawler », qui vont parcourir le web, l’indexer, le crawler et constituer un premier réseau de nœuds et de liens. Le second est un outil de cartographie de l’information, de visualisation, capable de construire des cartographies lisibles.

Notre outil de collecte et de crawling est un outil en libre accès, Hyphe [7], disponible en deux versions : une version à télécharger et une version de démonstration en ligne, où l’on peut faire un projet de corpus [8], version que nous avons utilisée. Il permet de constituer un premier corpus de ressources web, qu’il définit comme des « entités web ». Cette notion, à la base de l’outil, permet de déterminer soi-même la « longueur » de chaque « entité web » : un site entier, sa page d’accueil, telle ou telle page, telle ressource, etc. Hyphe constitue donc des corpus « d’entités web » et non de « sites web » au sens strict.

Notre problématique et nos questions de recherche pouvaient être posées ainsi : quelle est la réalité du domaine de l’EMI ? Ce domaine constitue-t-il un agrégat ? Et comment est-il structuré ?

Comment constitue-t-on un corpus sur Hyphe ?

De deux façons complémentaires : manuelle et semi-automatisée. On peut d’abord charger un lot d’URL, préalablement sélectionnées : nous avons procédé ainsi à partir des signets de Diigo. A partir de ces URL, il faudra décider pour chacune la longueur de « l’entité web ». Hyphe va ensuite les parcourir, les crawler et recenser tous les liens entrants et sortants. Et il va proposer de nouvelles ressources, liées aux premières. Le corpus initial va ainsi s’enrichir rapidement de tous les sites en lien avec les premiers.

Traitement du corpus

Le corpus ainsi constitué a été traité en trois temps itératifs. Un premier travail de sélection parmi les entités web a conduit à explorer les entités découvertes et marquées « Discovered », signifiant ainsi qu’elles pouvaient être explorées et crawlées par le robot pour que soient repérés, à partir d’elles, les liens sortants vers de possibles nouvelles entités. Les sites crawlés nous ont permis de faire de nouvelles découvertes d’entités, par exploration du voisinage des sites déjà trouvés.

Le deuxième travail a consisté en un nettoyage des entités identifiées. En effet, il s’est avéré que des pages repérées par le crawling appartenaient au même site. Lorsque les contenus étaient congruents, nous avons considéré qu’il s’agissait d’une seule et même entité.

Progressivement se posait la question de la clôture du corpus. En effet, quels pouvaient être les indicateurs signalant que nous avions identifié tous les acteurs qui étaient à trouver ? Au fur et à mesure de l’exploration des sites, on repère les contenus relatifs au domaine qui nous intéresse, ici l’EMI. Ces sites sont déclarés « IN » : ils sont clairement des acteurs du réseau et restent dans les limites intérieures du corpus. En avançant de proche en proche, de site en site, on repère que l’EMI devient un sujet annexe ou que le site concerné n’a pas de proche dans le même domaine. Il semble être à la marge du réseau constitué autour de la thématique de l’EMI. Ainsi une brève de presse qui mentionne simplement une action dans un EPLE sera exclue du corpus. Ce travail de limitation, puis de clôture du corpus est délicat pour deux raisons : parce qu’il demande d’explorer toutes les entités pour repérer leur place et parce que la particularité de la cartographie du web nous conduit à travailler sur les dispositifs socio-techniques qui imbriquent des actions humaines et des procédures automatisées, produisant du contenu sur le réseau. Ainsi l’activité de partage automatisé conduit à une duplication possible des contenus sur les plate-formes.

Le corpus constitué

Nous avons ainsi constitué un corpus de 233 entités web et nous avons exclu environ 6500 autres ressources. S’il ne peut prétendre à l’exhaustivité, parce qu’il s’agit d’une exploration en milieu ouvert et dynamique, il peut cependant prétendre à la représentativité en raison de la démarche à trois brins que nous avons adoptée : exploration manuelle, automatisée et itérative. Ensuite, la notion d’entité web est très intéressante dans la perspective d’une cartographie parce qu’elle permet de repérer les nœuds du réseau ; mais déterminer ces entités peut conduire à perdre des informations hétérogènes dont peuvent être porteuses certaines de ces entités.

Description, qualification des données

Une fois le corpus d’entités web soigneusement délimité, une autre phase s’est ouverte : celle de la qualification des données. Étape très importante, elle détermine directement le type et le nombre de cartographies possibles sous Gephi. En effet, le choix des catégories et des libellés dépend ici de la problématique de recherche, de ce que le chercheur veut mettre en évidence sur une cartographie. C’est un aller-retour constant entre la problématique, la méthode et les résultats.

Voulant montrer la diversité des acteurs et des « actants » impliqués dans la thématique de l’EMI sur le web, deux premières catégories nous ont semblé évidentes : une qualification des types d’acteurs et des types de sources. Les Types d’acteurs se devaient d’emprunter aux notions issues de la sociologie de la traduction [9] et nous avons donc gardé la partition Acteurs humains et Non-humains, en prenant les labels suivants : « Individu », pour les acteurs humains, « Organisation » pour qualifier les « acteurs organisationnels », i.e. tous les types d’organisations (institutionnelles, professionnelles, associatives, etc.), « Texte » pour désigner tous les « textes-réseaux » (articles, textes de loi, textes pédagogiques, etc.), et enfin une catégorie plus incertaine, « Dispositif », pour qualifier toutes les entités socio-techniques (un cours, un portail, un site de curation ou de veille, etc.).

La catégorie des Types de sources posait moins de problèmes, et nous avons fait une distinction classique selon la nature des sources : institutionnelles, scientifiques, associatives, journalistiques, etc.

Nous avons ajouté deux autres catégories : les Types de ressources (selon le type de contenu de la ressource : ressource éducative, politique, scientifique, professionnelle, de veille, etc.) ; et les Domaines d’appartenance, en distinguant quelques thématiques qui nous semblaient pertinentes : EAI, EAM, EMI, Éducation, Culture numérique, Presse, etc.

Cette étape primordiale de la qualification a permis d’explorer ce corpus, et elle a montré notamment l’importance de la place des acteurs non-humains, des organisations et aussi des dispositifs de type 2.0. Les résultats ont confirmé en grande partie le travail d’analyse du corpus des signets collectés et traités dans Diigo.

Premières observations

Ce travail de qualification [10] nous a conduits à faire les premières constatations sur ce corpus d’entités. Les Types d’acteurs se répartissent ainsi sur les 233 entités :

Types d’acteurs
Organisation	125
Individu	63
Dispositif	31
Texte	14
TOTAL	233

Dans cette phase d’émergence de l’EMI, ce sont d’abord les organisations qui se l’approprient, qu’elles soient institutionnelles ou associatives.

Pour les Types de ressources, on constate, de manière générale, la prédominance des ressources éducatives et des ressources professionnelles. C’est en résonance avec l’analyse des signets, qui laissait apparaître dans l’indexation des ressources collectées la prédominance du tag « ressource professionnelle ». On remarque par ailleurs la très faible présence de ressources dites politiques, produites sur l’EMI ; ce n’est pas un sujet qui fait débat dans la société. Peut-on aller jusqu’à dire que l’EMI est interne au monde éducatif ?

Croisement des Types d’acteurs et des Types de ressources
Types d’acteurs /Types de ressources	Dispositif	Individu	Organisation	Texte	TOTAL
Ressource culturelle	1		1		2
Ressource de veille	17		1		18
Ressource éducative	2	5	67		74
Ressource journalistique			6		6
Ressource législative			2	2	4
Ressource pédagogique	6	5	11		22
Ressource politique			2		2
Ressource professionnelle	2	42	19	1	64
Ressource scientifique	3	11	16	11	41
Total	31	63	125	14	233

Quelles observations de ce croisement ?

les organisations, acteurs les plus représentés, sont plus diversifiées dans la production de ressources, avec une prédominance des ressources éducatives ;
les individus produisent surtout des ressources professionnelles, à destination des professeurs documentalistes en l’occurrence (c’est l’analyse fine des ressources une à une qui permet de le dire) ;
les dispositifs de types 2.0, qui sont essentiellement des curations, des revues de hashtags, des Scoop.it, mais aussi des comptes Twitter, produisent des ressources de veille ou des ressources éducatives, émises par des relais institutionnels de l’EMI (CLEMI, Canopé, sites académiques), mais aussi et plus faiblement par quelques individus. Le poids des organisations se retrouve dans cette analyse.

Une fois fini ce long travail de collecte et de traitement du corpus sur Diigo et surtout sur Hyphe, nous avons exporté le fichier obtenu sur Hyphe [11], sous format GEXF, et nous sommes passés à la troisième et à la quatrième étape de notre démarche : celles de la cartographie et de la visualisation, et surtout de l’interprétation des résultats.

Rapide présentation de Gephi

Qu’est-ce que Gephi [12] ? Selon sa notice Wikipédia, « Gephi est un logiciel libre d’analyse et de visualisation de réseaux, développé en Java et basé sur la plateforme NetBeans. Il a été initialement développé par des étudiants de l’Université de technologie de Compiègne (UTC) » [13] . Cet outil a été développé par une équipe, composée notamment de Mathieu Bastian et Mathieu Jacomy, sur une idée de Franck Ghitalla. Depuis son lancement en 2008, Gephi est devenu l’un des plus puissants outils de cartographie et de visualisation de l’information, reconnu au plan international [14] par de nombreuses communautés scientifiques [15].

Exemple de graphe orienté.

Que permet Gephi ? Il analyse des données, calcule des graphes, établit des cartographies de ces graphes et permet différentes visualisations. Outil très riche en fonctionnalités [16].

Autre notion centrale : la spatialisation. C’est la première étape de visualisation d’un corpus : il s’agit de choisir un algorithme de traitement du graphe. Plusieurs algorithmes existent, qui ne sont pas tous propres à Gephi, et qui permettent de créer des graphes selon des modes de calcul différents. L’algorithme choisi généralement est Force Atlas2, qui fonctionne selon un principe d’attraction-répulsion entre les nœuds. C’est celui que nous avons utilisé. Le choix de l’algorithme de spatialisation va déterminer « l’architecture » de la cartographie, à la fois sa forme globale et le positionnement des nœuds les uns par rapport aux autres. Pour filer une métaphore architecturale, la spatialisation serait le plan d’une maison, sa forme globale (ronde, carrée, rectangulaire, etc.).

Quels résultats ?

Que nous montre Gephi concernant le domaine de l’EMI sur le web ? La méthode globale d’interprétation s’est faite en quatre temps : la lecture des cartographies, leur analyse, des conclusions intermédiaires et une conclusion générale.

Le paysage de l’EMI

Carte n° 1 : Domaine de l’EMI

Comment sont structurés les domaines et les agrégats ? Citons de nouveau Ghitalla et Jacomy pour intégrer trois notions de la cartographie du web : « On distingue trois composantes à un domaine ou agrégat pour se repérer :

Le cœur, qui contient des sites souvent très gros et très fortement connectés ;
La nébuleuse, qui comprend la majeure partie des sites du domaine mais pas les plus connectés ;
Les filaments, qui [sont constitués] de sites souvent petits, qui entrent dans le champ de la thématique mais qui sont peu connectés avec le domaine lui-même ». [17]

Quelles observations pouvons-nous tirer de cette première cartographie globale [18], établie sur le corpus complet, composé de 233 nœuds et 1408 liens ?

D’abord l’EMI est un domaine fortement connecté, et notre première hypothèse est vérifiée : c’est un agrégat de sites web très interconnectés, avec une moyenne de 6 liens par nœud. On y distingue nettement les sites génériques, qui ne sont pas propres à l’EMI mais qui concernent le domaine : les sites du Ministère (Education.gouv, Eduscol, Education, etc.). Le « cœur » de cet agrégat est constitué des nœuds les plus interconnectés : les sites institutionnels (CNDP, CLEMI, sites académiques), professionnels (DocspourDocs, Café pédagogique, Trois couronnes, etc.), associatifs (FADBEN), mais aussi quelques sites de curation (Scoop.it) et scientifiques (GRCDI). La « nébuleuse » de l’EMI est représentée ici par la multitude des « petits » nœuds (nombreux blogs, comptes Twitter, sites académiques peu connectés, etc.). Quant aux « filaments », ils sont constitués de tous les nœuds de petite taille, qui entourent le corpus ; il est intéressant d’observer que ces « filaments » sont souvent des sites scientifiques (comptes Twitter de chercheurs, d’équipes scientifiques, de revues, d’événements), individuels (nombreux comptes Twitter), parfois institutionnels, ou des sites de presse.

Que signifient les couleurs attribuées aux nœuds ?

Carte n° 2 : Les communautés de l’E.M.I.

Elles expriment une autre notion importante de Gephi, qu’il faut comprendre pour pouvoir « lire » ces cartographies : la notion de partitionnement. Le partitionnement est une répartition qualitative des nœuds, selon des attributs de catégorie (par ex. H/F, ou bien ici à partir des champs de description des ressources : Types d’acteurs, etc.). Dans notre métaphore architecturale, si la spatialisation correspondait au plan global d’une maison, le partitionnement serait la répartition des pièces à l’intérieur de la maison, par exemple selon leur fonction principale (chambre, salle de bain, cuisine, etc.), ou selon d’autres critères décidés au préalable (pièces avec ou sans papier peint, etc.). On peut créer autant de cartographies que de paramètres de partitionnement, avec une attribution de couleurs aux nœuds, selon leur groupe de rattachement. Le premier critère de partitionnement, proposé par Gephi, est le calcul de modularité (Modularity Class), basé sur un algorithme de détection de communautés, c.-à.-d. de sites proches. Gephi détecte ainsi, dans l’ensemble du corpus de nœuds, différentes « communautés » (calculées automatiquement) et va attribuer des couleurs à ces communautés.

Que nous montre ici ce partitionnement par communautés ? Il révèle des éléments très intéressants sur la structuration du domaine de l’EMI, la proximité ou l’éloignement de ses composants. On y distingue en effet, plus ou moins nettement, au moins cinq communautés de sites, réunis par la proximité de leurs liens, que nous avons interprétées et qualifiées ainsi :

une communauté institutionnelle de l’Éducation Nationale (en vert) : les sites académiques, ministériels ;
une seconde communauté institutionnelle, dominée par l’Education aux médias (en rouge), avec les sites du CLEMI ou proches du CLEMI, les sites professionnels éducatifs ;
une communauté scientifique (en orange), qui regroupe plusieurs sites et ressources scientifiques ;
au milieu, (en violet), une communauté professionnelle, avec plusieurs sites professionnels ;
et à droite (en bleu), une communauté regroupant surtout des comptes Twitter, que nous avons appelée la « communauté Twitter ».

Notons la présence, en haut à droite de la carte, d’une communauté assez indéterminée, composée de plusieurs couleurs mélangées.

Que nous apprend le positionnement des nœuds sur la carte ?

Il faut se garder de « sur-interpréter » ces positionnements précis des nœuds et leur distance (éloignement/proximité), car ceux-ci peuvent varier d’une cartographie à l’autre. En revanche, ce qui reste assez constant dans les différentes cartographies, c’est l’environnement immédiat d’un nœud. On peut faire quelques observations sur ce premier partitionnement :

le positionnement du site de la FADBEN dans la communauté scientifique ;
le relatif éloignement entre la communauté CLEMI et la communauté scientifique ;
la spécificité et la richesse de la communauté Twitter ;
la proximité entre les communautés scientifique et professionnelle, avec des acteurs de poids (dont DocspourDocs) ;
le recoupement entre les communautés professionnelle et institutionnelle (avec Eduscol et des acteurs de médiation).

Pourquoi certains nœuds sont-ils plus gros que d’autres ?

Une autre notion essentielle de Gephi doit être introduite ici : celle de classement des nœuds. Si le partitionnement est une répartition qualitative des nœuds, en fonction des attributs qui leur sont donnés, le classement est une répartition quantitative, selon différents critères quantitatifs ; il se traduit par l’attribution d’une taille pour chaque nœuds. Pour continuer notre métaphore de la maison, le classement consisterait à classer les pièces selon leur dimension, ou selon leur hauteur, etc. Gephi propose de nombreux critères de classement. Ici, sur cette cartographie globale, le classement des nœuds choisi est le classement par Degrés, c.-à.-d. par le total des liens entrants et sortants.

Quels sont les sites les plus cités ?

On connaît l’importance de la citation, que ce soit dans le monde des publications scientifiques, depuis les travaux d’Eugen Garfield en 1958 sur la bibliométrie, ou dans le monde du web, avec le célèbre PageRank de Google (d’ailleurs inspiré de Garfield). « Dis-moi qui tu cites, je te dirai qui tu es et dans quel réseau tu t’inscris ». Mais la cartographie des citations, ou plutôt ici des liens hypertextes, est aussi intéressante pour mesurer, sinon l’autorité, du moins la notoriété d’un site.

Cette cartographie [19] montre un peu plus d’une quarantaine de ressources (d’entités web), sur un total de 233 nœuds, qui sont les plus citées dans le petit monde de l’EMI. Dans les dix premiers nœuds, on trouve, en tête, les grands sites institutionnels, Education (Eduscol) et Education.gouv, qui totalisent à eux deux 112 liens entrants ! Suivent en troisième position plusieurs sites Scoop.it, regroupés dans la même entité web, dont le topic du CLEMI, Infodoc-Presse. Viennent ensuite, dans ces 10 premiers, le CNDP, le Café pédagogique, Daily Motion (qui regroupe plusieurs vidéos sur l’EMI), le CLEMI, DocspourDocs, les sites académiques de Versailles et Besançon. La FADBEN arrive en onzième position (avec 20 liens), et le GRCDI en quatorzième (17 liens).

Quels sont les types d’acteurs les plus cités ?

Carte n° 3 : Les types d’acteurs les plus cités

Une autre cartographie [20] est intéressante pour montrer les types d’acteurs les plus cités. Nous avons donc fait un autre partitionnement des nœuds, sur l’attribut « Type d’acteurs », avec le même classement par « Degrés entrants » et le même filtrage (sur 10 liens entrants).

La légende de Gephi indique :

une nette prédominance des acteurs « organisationnels », regroupant aussi bien les sites institutionnels, associatifs, les collectifs professionnels ou scientifiques : ils constituent plus de 60 % des nœuds affichés ;
l’importance des acteurs socio-techniques, c.-à.-d. les « Dispositifs » : sites de veille, comptes Twitter collectifs, sites de partage (SlideShare, DailyMotion), qui représentent près de 20 % des Acteurs affichés ;
la part réduite des « Acteurs humains », c.-à.-d. des Individus : un peu plus de 12 % ;
et la faiblesse des « Textes » : moins de 5 %.

Quels sont les sites les plus « populaires » , selon un calcul de type PageRank ?

Dans cette cartographie, nous avons utilisé un autre critère de classement, le PageRank. Selon Gephi, le PageRank permet de classer les sites en fonction de la probabilité d’arriver dessus en suivant les liens. Il s’agit donc d’une sorte d’indicateur de popularité, qui vient compléter le classement par citations.

La cartographie produite [21] affiche seulement 34 nœuds, et leur classement est sensiblement différent de celui du classement par « Liens entrants ». Si l’on retrouve plus ou moins les mêmes sites, le classement des dix premiers est différent : Education.gouv, DailyMotion, Eduscol, FeedBurner, CLEMI, Scoop.it, CNDP, France-Université numérique, Internetsanscrainte et le compte Twitter du Ministère de l’Education.

On voit, dans ce classement, l’importance des dispositifs socio-techniques avec la place de DailyMotion, de Scoop.it, l’apparition de FeedBurner, de Netvibes ; un renforcement de la position du CLEMI et des sites institutionnels. On peut également voir une différence pour DocspourDocs entre le nombre de liens entrants et le PageRank (la popularité).

Quels sont les sites « médiateurs », au cœur des flux d’informations ?

Cette cartographie repose sur un autre critère de classement, fourni par Gephi, la « Betweenness Centrality », définie ainsi : « Le calcul de l’intermédiarité permet d’afficher les nœuds qui sont au cœur des flux d’informations. Ils sont indispensables pour diffuser l’information au sein du réseau. ». Il s’agit donc ici des sites-relais, qui jouent un rôle important de médiation, de rediffusion de l’information au sein du domaine.

Que montre cette cartographie [22] ? Un nouveau classement, avec en tête DocspourDocs, qui confirme son importance de « hub » et de site-relais, suivi de Scoop.it, du CNDP, du CLEMI, de Education.gouv. La FADBEN est en huitième position.

Quels sont les (sous-)domaines de l’EMI les plus cités ?

Dans une autre cartographie, nous avons cherché à visualiser les différents sous-domaines, qui composent le corpus de l’EMI, en fonction de nos critères de qualification. Que nous dit cette cartographie et sa légende [23] ?

la partie « EAI », i.e. l’information-documentation est très nettement majoritaire, et représente plus de 35 % du corpus affiché ;
les sites d’éducation, au sens large (non spécifiques à l’EMI, ou à l’EAI) arrivent en deuxième position, avec près de 22 % ;
les sites d’EAM, explicitement orientés vers l’éducation aux médias, sont au troisième rang (avec 17,6 %) ;
et les sites spécifiquement EMI n’arrivent qu’en 4ème position, avec plus de 11 %.

A noter enfin la part très faible des sites spécifiquement dédiés à la culture numérique dans ce corpus. Ce qui tendrait à établir une assez nette coupure entre les deux domaines, de l’EMI et de la formation au numérique, contrairement aux souhaits de la Conférence EMIConf.

Quels sont les types de sources les plus citées ?

Cette nouvelle cartographie porte sur les types de sources, établies à partir de nos qualifications : sources institutionnelles, scientifiques, professionnelles, etc. Cette cartographie [24] souligne une fois encore l’importance des institutions, mais aussi, et c’est un indicateur intéressant, la place importante des sources personnelles, qui arrivent en deuxième position. Les sources associatives et professionnelles arrivent bien après, et les sources scientifiques sont assez faibles (avec 6,5 %).

Ceci induit une conclusion intermédiaire observée dans les précédentes cartographies : l’EMI est d’abord produite par l’institution.

Quels sont les types de ressources les plus citées ?

Enfin, lorsque l’on observe les types de ressources les plus importantes, la dernière cartographie vient à la fois confirmer et compléter les analyses précédentes [25].

On perçoit d’abord nettement la force des ressources éducatives (près de 32 %) et professionnelles (27,5 %) : elles représentent près de 60 % du corpus des sites les plus cités. Ce qui signifierait que la préoccupation première est à la fois dans les dispositifs, le discours éducatif, l’appropriation et la mise en œuvre par la profession. Il faut souligner ensuite la relative importance des ressources scientifiques (en 3ème position avec 17,6 %), ce qui peut sembler contradictoire avec la cartographie précédente sur les sources. Enfin la faiblesse des ressources politiques, sociales, journalistiques : cela signifierait-il que la question des enjeux de l’EMI n’est pas encore vraiment posée ?

Quelles conclusions principales peut-on tirer de l’interprétation de ces cartographies ?

Sur la base de toutes les observations faites à partir de ces cartographies, qui sont autant de facettes du domaine de l’EMI sur le web, nous pouvons tirer une dizaine de conclusions synthétiques :

l’EMI est un domaine très interconnecté, i.e. un agrégat ;
on peut y repérer cinq « communautés » de sites, en fonction de liens de proximité ;
on peut dresser une sorte de typologie, certes provisoire, des acteurs selon leur positionnement : les acteurs « faisant autorité » (les plus cités), les acteurs « populaires » (ou fréquentés), et les médiateurs d’information ;
nous avons repéré à maintes reprises la domination très nette des acteurs organisationnels et la force des dispositifs socio-techniques : l’EMI est pour le moment affaire d’organisations, d’institutions, de collectifs, plutôt que d’individus, et elle repose aussi sur les dispositifs de type web 2.0, ce qui accélère sa diffusion ;
pour approfondir le point précédent, dans les organisations, on soulignera la force des sources institutionnelles : l’EMI est portée par un discours institutionnel ;
on aura noté le paradoxe entre la faible visibilité des sources scientifiques et la relative importance des ressources scientifiques : peu de sources, mais qui produisent beaucoup ;
autre phénomène notable : l’importance des sites de curation et de veille (Scoop.it, Twitter, Netvibes, etc.) ;
la très faible présence de la presse et des ressources politiques : selon notre corpus, l’EMI reste encore confinée aux cercles relativement étroits de l’école et des professeurs documentalistes, sans résonance réelle dans la société civile ;
la présence anecdotique de la culture numérique : la séparation semble ici assez nette entre les domaines de la culture numérique, des TICE, etc. (qui doivent représenter certainement un très grand corpus) et ceux de l’EMI, EAI et EAM.

En conclusion

Cartographier un domaine du web est une méthode de recherche qui procède d’une démarche itérative et revêt une dimension heuristique. Jean-Christophe Plantin, dans une comparaison entre la cartographie géographique et la cartographie du web, décrit les intérêts de celle-ci avec trois verbes d’action : représenter, naviguer et analyser.

Représenter tout d’abord : il s’agit de représenter un territoire inconnu au sein du web, une mise en visibilité pour se repérer au sein dudit territoire : « La carte constitue toujours une simplification nécessaire du phénomène étudié : y faire figurer l’ensemble d’un phénomène concourt rapidement à rendre la carte illisible. À l’inverse, simplifier la carte en sélectionnant les éléments et les variables à afficher permet de faire ressortir plus facilement les insights et suscite l’analyse » [26] .

Naviguer ensuite : il s’agit alors de circuler dans cet espace en se constituant un réseau de voies de communication pour circuler et se repérer dans ce territoire ainsi circonscrit. On peut varier la focale d’analyse en débutant par une vue globale, pour l’identification de tendances générales ; puis faire des zooms, des focus sur une partie seulement selon les zones que l’on veut explorer dans l’objet d’étude. Par exemple, les liens entre institutions et acteurs professionnels. Ce qui permet aussi de se situer dans l’espace ainsi circonscrit. Et Plantin de citer Ghitalla : « où suis-je ? » signifie par sous-entendu « et moi dans cet espace ? ».

Analyser enfin : Jean-Christophe Plantin insiste sur un point dans sa comparaison entre carte géographique et carte du web : « L’important n’est pas la position absolue d’une URL dans l’espace (en haut à gauche ou en bas à droite) mais sa position relative aux autres URL » [27] . Peu importe où se trouve la FADBEN : ce qui compte, ce sont ses voisins sur la carte...

Quelles limites ?

La principale limite est la part d’arbitraire, comme dans toute entreprise cartographique, dans toute tentative de représentation. Même si nous avons veillé à une neutralité maximale, méthodologique, nous avons dû procéder à des choix, entre le premier et le second corpus, pour l’algorithme de spatialisation, les critères de classement, etc.

Et maintenant ?

Quels pourraient être les prolongements à envisager pour ce travail de recherche, à peine commencé ? Deux voies semblent s’ouvrir :

d’une part, le renouvellement du corpus dans quelques mois : on pourrait étendre le corpus et poursuivre la fouille du web. D’autres textes ont été publiés depuis la rentrée et les positions au sein du réseau des textes institutionnels et scientifiques seront probablement modifiées. Redisons que cette cartographie de l’EMI est une photo à un instant T.
d’autre part, et parallèlement, il faudrait conduire une analyse qualitative de ces textes. C’était l’une de nos intentions au départ, qui, faute de temps, n’a pu être réalisée, sauf de manière très empirique et provisoire. Nous sommes dans une phase de construction de l’EMI et donc dans des stratégies de positionnement des acteurs, qui développent des arguments, pour imposer ou développer l’EMI (les institutions), ou pour renforcer leur légitimité (les professionnels).

Certains des acteurs s’expriment pour se positionner comme référent, pour justifier l’existence de l’EMI (les sites institutionnels, notamment, pour l’imposer, mais aussi les sites professionnels pour ancrer leurs actions auprès des élèves dans une forme de prescription).

En guise de conclusion finale

A la question « A qui appartient l’EMI ? », nous pouvons donc apporter une première réponse en revenant sur le titre de cette communication : « L’EMI en partage ». La variété des acteurs montre en effet que c’est l’affaire de beaucoup d’acteurs, aux motivations différentes. La place dans le réseau cartographié, ainsi que le maillage des liens, montrent :

que c’est d’abord une volonté politique forte portée par l’institution, qui s’appuie sur des relais médiateurs également institutionnels (Canopé, CLEMI, sites académiques) ;
que c’est un territoire en construction et en bornage dans la mesure où chaque acteur sélectionne et met en avant, volontairement ou non, des dimensions de l’EMI. La visibilité ainsi opérée contribue à le construire comme un acteur. Pour situer son engagement sur le terrain de l’EMI, il faut dire ce que l’on prend de l’EMI et ce que l’on en refuse, là est le bornage. Les mobiles de ces processus ne sont pas toujours explicites pour les acteurs eux-mêmes. Ainsi, se situer comme acteur de l’EMI en se contentant de ré-indexer ses contenus, ses titres de page web, est un moyen d’être actif, visible rapidement sur le web mais manifeste une vision sans doute à courte vue de ce qu’est une réflexion collective. Les enjeux éducatifs sont pourtant à cette échelle. Par ailleurs, la poursuite d’une légitimation professionnelle, notamment par une blogosphère agissante qui participe à la diffusion de l’EMI, pose de manière accrue l’absence de prescription claire pour les professeurs documentalistes.

Références bibliographiques

Bruillard, Eric, Durpaire, Jean-Louis (sous la coord.). Cultures numériques, éducation aux médias et à l’information. Ecole Normale Supérieure de Lyon, 21-22 mai 2013. Futuroscope : Scéren-CNDP, 2013. 143 p.
Ghitalla, Franck. « La « Toile Européenne » Parcours autour d’une cartographie thématique de documents web consacrés au thème de l’Europe et à ses acteurs sur le web francophone » . In Communication & langages, 2008, pp 61-75. Disp. sur : http://www.necplus.eu/action/displayAbstract?fromPage=online&aid=2423488
Jacomy, Mathieu, Ghitalla, Franck. Méthodologies d’analyse de corpus en Sciences Humaines à l’aide du Navicrawler. Rapport final (Rapport de recherche). Paris : Fondation de la Maison des Sciences de l’Homme, 2007. Disp. sur : http://webatlas.fr/wp/share/navicrawler/Guide%20m%e9thodo%20NC%202007.pdf
Jacomy, Mathieu. « La cartographie du web entre démocratisation et maturité », s.d. Présentation PDF. Disp. sur : http://webatlas.fr/tempshare/pratic.pdf
Ollivier, Guillaume. « Jalons pour une étude (con)textuelle du web », In Socio-informatique et argumentation, 16 janvier 2012. Disp. sur : http://socioargu.hypotheses.org/3427/comment-page-1?lang=fr_FR
Plantin, Jean-Christophe. « D’une carte à l’autre : le potentiel heuristique de la comparaison entre graphe du web et carte géographique ». In Barats, Christine (dir.). Analyser le web en Sciences humaines et sociales. Paris : Armand Colin, 2012. Chapitre 11. Version preprint disp. sur : http://cartonomics.org/wp-content/uploads/2011/09/PLANTIN-2012-dune-carte-%C3%A0-lautre-1.pdf
Severo, Marta. « La cartographie du Web  : le lien social sur le Net » . mars 2012. Disp. sur : https://halshs.archives-ouvertes.fr/halshs-00678768/document

Notes

[1] Guillaume Sylvestre, "Utilisation du logiciel Gephi pour l’analyse cartographique", In Master Intelligence économique et stratégies compétitives, 2 juin 2015. Disp. sur http://master-iesc-angers.com/utilisation-du-logiciel-gephi-pour-lanalyse-cartographique/

[2] Marta Severo, "La cartographie du Web  : le lien social sur le Net", mars 2012. Disp. sur : https://halshs.archives-ouvertes.fr/halshs-00678768/document

[3] Mathieu Jacomy, "La cartographie du web entre démocratisation et maturité", s.d. , p. 5. Disp. sur : http://webatlas.fr/tempshare/pratic.pdf

[4] Ibid., p. 4

[5] Ibid., p. 4

[6] Guillaume Ollivier, "Jalons pour une étude (con)textuelle du web", In Socio-informatique et argumentation, 16 janvier 2012. Disp. sur : http://socioargu.hypotheses.org/3427/comment-page-1?lang=fr_FR,

[7] Hyphe est un outil développé au Medialab de Sciences Po, dans le cadre du projet « Hypertext Corpus Initiative », par Mathieu Jacomy et son équipe. Issu de l’équipe de chercheurs autour de Bruno Latour, il a été conçu aussi comme un outil de cartographie des controverses.

[8] Disponible en version de démo ici : http://hyphe.medialab.sciences-po.fr/demo/#/login

[9] La sociologie de la traduction est l’autre nom de l’approche de l’acteur-réseau, développée par Bruno Latour et Michel Callon.

[10] On trouvera, sur le Carnet du GRCDI, le fichier .xls du corpus.

[11] Ce fichier est disponible à partir du Carnet du GRCDI.

[12] Voir le site officiel : https://gephi.github.io/

[13] https://fr.wikipedia.org/wiki/Gephi

[14] Depuis 2010, son développement est porté par le Gephi Consortium, dans lequel figurent plusieurs grands acteurs de la recherche, localisés au Medialab de Sciences Po : https://consortium.gephi.org/index.html

[15] Il a obtenu plusieurs prix scientifiques.

[16] Voir sa fiche descriptive sur PLUME : https://www.projet-plume.org/fiche/gephi)), il a permis de créer de très nombreuses cartographies du web, de Twitter, de data journalisme, etc. Ne pouvant présenter ici ses nombreuses fonctionnalités, nous n’insisterons brièvement que sur quelques notions importantes à comprendre.

Tout d’abord, qu’est-ce qu’un graphe ? Selon Wikipédia, « un graphe est un ensemble de points nommés nœuds (parfois sommets ou cellules) reliés par des traits (segments) ou flèches nommées arêtes (ou liens ou arcs). L’ensemble des arêtes entre nœuds forme une figure similaire à un réseau » [[https://fr.wikipedia.org/wiki/Th%C3%A9orie_des_graphes

[17] Mathieu Jacomy, Franck Ghitalla, Méthodologies d’analyse de corpus en Sciences Humaines à l’aide du Navicrawler, 2007. p. 6.
Disp. sur : http://webatlas.fr/wp/share/navicrawler/Guide%20m%E9thodo%20NC%202007.pdf

[18] Voir sur le Carnet du GRCDI le fichier PDF, dans lequel il faut zoomer pour agrandir : http://grcdi.hypotheses.org/files/2015/10/Carto_EMI_globale_degre_2015-09-11.pdf

[19] Voir le fichier PDF : http://grcdi.hypotheses.org/files/2015/10/Carto_EMI_liens-entrants_2015-09-02.pdf

[20] Voir le fichier PDF : http://grcdi.hypotheses.org/files/2015/10/Carto_EMI_TypesActeurs_Liens-entrants_2015-09-02.pdf

[21] Voir sur le Carnet du GRCDI le fichier PDF : http://grcdi.hypotheses.org/files/2015/10/CartoEMI_influents-PageRank_2015-09-02.pdf

[22] Voir le fichier PDF : http://grcdi.hypotheses.org/files/2015/10/Carto_EMI_intermediaires_2015-09-02.pdf

[23] Voir le fichier PDF http://grcdi.hypotheses.org/files/2015/10/Carto_EMI_Domaines_Liens-entrants_2015-09-02.pdf

[24] Voir fichier PDF : http://grcdi.hypotheses.org/files/2015/10/Carto_EMI_TypesSources_Liens-entrants_2015-09-02.pdf

[25] Voir fichier PDF : http://grcdi.hypotheses.org/files/2015/10/Carto_EMI_TypesRessources_Liens-entrants_2015-09-02.pdf

[26] Jean-Christophe Plantin, « D’une carte à l’autre : le potentiel heuristique de la comparaison entre graphe du web et carte géographique », in Christine Barats (dir.), Analyser le web en Sciences humaines et sociales, Armand Colin, 2012. Chapitre 11.

[27] Franck Ghitalla, « La « Toile Européenne » Parcours autour d’une cartographie thématique de documents web consacrés au thème de l’Europe et à ses acteurs sur le web francophone » . In Communication & langages, 2008, p. 66.