SGBD, MySQL, Pajek, QSIG, Visone, ACP, R. De l’hébreu ? Du chinois ?

Non, il s’agit du nom des logiciels de traitement de données dont le troisième volume de la collection DIDACT se propose de fournir les clés afin de réaliser des analyses quantitatives. Ce didacticiel a été élaboré par un agrégé de mathématiques et une maîtresse de conférences en histoire contemporaine à l’université de Rennes 2. Ils proposent ici le contenu de TD dispensés jusque là à des étudiants de master et de doctorat. Cet ouvrage est présenté comme la suite du volume « Traiter les données historiques » paru en 2001. Il s’inscrit dans la lignée du livre de Claire Lemercier et Claire Zalc « Méthodes quantitatives pour l’historien ».

Le thème est ardu mais la charte graphique du volume (interligne large, police plus grosse que de coutume dans l’édition, formules mathématiques difficiles figurant dans des encadrés signalés par le symbole de l’avion, pour prévenir le lecteur des passages difficiles) doit en faciliter la lecture. L’ensemble est organisé en cinq grandes parties consacrées chacune à un type d’outils. Des chapitres incontournables sont à lire pour acquérir des pré-requis. Le site http://jacquescellier.fr/histoire/ permet de télécharger les fichiers sources des exemples de l’ouvrage et de disposer ainsi des cartes en couleur. L’idée des auteurs est d’offrir au lecteur le mode d’emploi de logiciels gratuits.

 

Mettre en ligne une base de données

Si Acces est connu pour être le logiciel de bases de données, c’est ici les serveurs de données MySQL et PhqMyadmin qui sont décryptés. Gratuits, ils permettent de mettre en ligne une base de données et de la faire enrichir par différents contributeurs. Les limites de ces joujoux sont montrées. Ainsi les antiquisants et les médiévistes ne pourront pas s’en servir puisque les dates ne courent qu’à partir de l’an mil (avec Excel, c’est à partir de 1900). Il faut par ailleurs bien voir que l’approche de ce genre d’outil n’est pas simple. Les présentations générales de l’ouvrage sont faciles à suivre, mais cela se complique quand on rentre dans des tâches plus spécifiques telles que l’interrogation SQL malgré la présence d’annexes qui présentent le résumé de l’essentiel et notamment les codes à retenir.

Analyse de données multidimensionnelles

Il s’agit ici de réaliser un nuage de points : un point représentant un individu. Pour cela, des tableurs comme Excel peuvent permettre de faire des statistiques mais pas ce genre de réalisation. Pour faire des nuages de points, il existe R. Les auteurs vont jusqu’à expliquer comment installer le logiciel. Ils montrent les enjeux de la classification des points qui, selon les paquets de points réalisés, peut donner un effet visuel et une analyse totalement différente. Les phases de préparation sont indispensables pour réaliser de telles analyses. Il faut élaborer avec soin les tableaux de données en sélectionnant celles qui sont le plus pertinentes. L’ACP (analyse en composantes principales) est une méthode exploratoire. Il est nécessaire de multiplier les perspectives des plans de projection pour aboutir à ce qui paraît le plus pertinent. L’usage des mathématiques ne suffit pas à la réalisation d’un document pertinent visuellement.

 

Analyse longitudinale

Cette partie propose des outils qui doivent permettre de faire des comparaisons. S’il est simple d’opérer des comparaisons entre deux objets ou individus, les choses se corsent quand il s’agit ici d’opérer des comparaisons entre des phénomènes nombreux et à des périodes différentes. Il faut mettre en œuvre l’analyse de séquences. Pour cela, la mise en place d’une table de séquences est nécessaire : liste précise des états, définition d’une périodicité (pas forcément absolue – toutes les séquences ont une même durée – mais pouvant être relative car fixée en fonction de la vie propre à chaque individu). L’affaire n’est donc pas simple. L’Event History Analysis (EHA) permet d’étudier le rythme d’apparition d’un phénomène dans un groupe d’individus (voir le cas de la mortalité).

Analyse des réseaux sociaux

C’est le thème de recherche à la mode par excellence dans les sciences sociales en ce moment car c’est la conséquence du développement des réseaux sociaux, même si ceux-ci (à comprendre au sens large) existent depuis longtemps (voir le cas de Florence à la Renaissance). Les outils d’analyse sont nombreux et souvent redondants. Les auteurs de l’ouvrage désirent aider le lecteur à s’y retrouver dans cette jungle des méthodes. Ainsi, en est-il la Théorie des graphes (XVIIIe siècle) qui a retrouvé tout son intérêt pour analyser les réseaux sociaux puisqu’elle se base sur la probabilité que les éléments (acteurs ou noeuds) d’un réseau entrent en contact et nouent des liens. « Un graphe est un ensemble de nœuds connectés par des liens, flèches ou arêtes, selon qu’il soit orienté ou non ». Pour rendre compte de cette complexité, Visone (logiciel de visualisation et d’analyse de réseaux sociaux) et Pajek (capable de traiter de vastes réseaux) peuvent faire l’affaire même si l’usage de ces outils est difficile (on nous aura prévenu !). Par ailleurs, les questions de cohésion, de centralité, de rôles et de position doivent être posées pour comprendre le fonctionnement des réseaux sociaux.

 

Cartographie

L’usage des SIG est abordé dans la dernière partie de l’ouvrage. Les principes fondamentaux y sont exposés : l’association de bases de données et de cartes. QSIG peut aider les historiens à construire des cartes. En plus de permettre la gestion de base de données, ce logiciel intègre un module de géoréférencement et un module de dessin vectoriel (bien utile aux historiens dont les fonds de carte ne ressemblent pas forcément à ceux qui sont en service actuellement). Là encore, nous sommes prévenus : « S’emparer de QSIG reste un véritable investissement qui nécessite un minimum de connaissances théoriques sur les projections cartographiques, les discrétisations de données, le langage sémiologique sans compter une certaine habileté indispensable aux nombreux « bidouillages » entre tableur, logiciel de cartographie, logiciel de dessin, etc… chaque carte nécessitant un traitement particulier. » Les auteurs conseillent alors plutôt pour des cartes ne nécessitant pas de géoréférencement l’usage de PHILCARTO ou de COUCOU CARTO.

Avec les captures d’écran qui ponctuent le texte, ce volume peut être rapproché de la collection « Pour les Nuls ». Tout y a l’air plutôt simple et limpide. Je n’ai pas testé la mise en œuvre de ces logiciels mais l’ouvrage donne envie de se les coltiner. N’est-ce pas, d’ailleurs, l’essentiel ? Le site de Jacques Cellier est le support à ce didacticiel et doit permettre d’aller chercher auprès de l’un des auteurs des réponses à ses questions ou des aides à la mise en œuvre en cas de besoin. Ainsi, non seulement vous avez le livre mais un accès à un prof particulier de la base de données !

Catherine Didier-Fèvre ©Les Clionautes