Changelog 0.8 alpha 7 (fr)
Généralité
Passage à Python 3 (3.11 exactement) et Wxpython 4 (4.2.2) : merci à Laurent Mérat pour avoir réalisé une grande partie de ce travail !
Le logiciel est compatible avec les dernières versions de R (4.4.1 pour l'instant) : il est conseillé de l'utiliser avec la dernière version disponible au moment de l’installation sous Mac et Windows.
Iramuteq devrait trouver seul la version de R installé sur tous les systèmes.
On peut échanger les analyses entre les systèmes (une analyse réalisée sur un Mac s'ouvrira sur Windows ou Linux et inversement)
Trois nouveaux packages de R sont installés : sna, network et intergrpah.
Les fichiers de configurations sont désormais dans un dossier qui comporte le numéro de version (.iramuteq-08a7 par exemple)
De nombreux bugs ont été corrigés et de nombreux autres probablement introduits :)
Windows
La version Windows est désormais en 64 bit.
Le dossier d’installation comporte le numéro de version : il est donc possible d’avoir plusieurs versions d’iramuteq sur une même machine.
Le logiciel devrait fonctionner quelque que soit l'encodage du système.
Il faut une version de R >= 4.4.1
Tous les fichiers intermédiaires et les résultats sont maintenant encodé en utf8.
Les analyses réalisées avec la version précédente ne sont pas compatibles (texte et matrice).
Mac OS
Cette version fonctionne sur la dernière version de Mac OS (15.0.1 et précédentes).
Il y a désormais une version pour les Mac avec processeur Intel et une pour ceux avec processeur Apple (M1, M2, M3 et suivant...).
Interface
Il est désormais possible de choisir la taille des polices utilisées (Édition -> Préférences)
Possibilité de faire une recherche dans la liste des corpus indexés (Ctrl+F ou Cmd+F dans l'historique)
Indexation des textes
Il est maintenant possible de définir une langue par défaut pour les textes (Édition -> Préférences)
Des corrections ont été apportées à la plupart des dictionnaires pour éliminer les situations où un même lemme apparaissait avec deux (ou plus) catégories grammaticales différentes.
Ajout de plusieurs langues : néerlandais, galicien, norvégien.
Nouvelles analyses
Sur les textes
-
Retour au texte complet
Dans toutes les analyses, les concordanciers affichent maintenant un lien au bout de la ligne étoilée. Cliquer sur le lien ouvre une fenêtre qui contient la totalité du texte dont le segment est issu. Le segment concernait apparaît en rouge dans le texte.
-
Distances de Labbé
Permet de calculer les distances de Labbé sur la base de tableaux lexicaux entiers. Cette analyse utilise le même dialogue que l'analyse Spécificités et AFC. L'utilisateur sélectionne une variable ou des modalités et la matrice des distances entre les parties concernées est calculée. Les résultats sont proposés sous forme d'un arbre représentant une classification de Ward sur la matrice des distances, d'un graphique HeatMap, d'une représentation colorée de la matrice et de la liste de toutes les distances. La matrice est exportée dans un fichier csv.
Le calcul de cette distance a été proposée et décrite par Dominique Labbé dans les articles suivants :
Labbé, D., & Monière, D. (2000). La connexion intertextuelle. Application au discours gouvernemental québécois. In M. Rajman & J.-C. Chappelier (Eds.), Actes des 5èmes Journées Internationales d’Analyse statistique des Données Textuelles, Lausanne : EPLF, 85-94.
Labbé, C., & Labbé, D. (2003). La distance intertextuelle. Corpus, (2) : 95-117.
Un exemple d'application de cette analyse dans iramuteq pour le croisement de classifications est proposée dans cet article :
Ratinaud, P., & Marchand, P. (2016). Quelques méthodes pour l’étude des relations entre classifications lexicales de corpus hétérogènes : application aux débats à l’assemblée nationale et aux sites web de partis politiques. In D. Mayaffre, C. Poudat, L. Vanni, V. Magri, & P. Follette (Eds.), Statistical Analysis of Textual Data (pp. 193–202). http://lexicometrica.univ-paris3.fr/jadt/jadt2016/01-ACTES/83670/83670.pdf
-
Corpus à partir de classes
Il ne s'agit pas vraiment d'une analyse. C'est un outil qui permet de reconstruire des corpus à partir de classes issues de n'importe quelle classification Reinert, y compris sur des corpus différents. Il suffit de parcourir l'arbre des corpus et des analyses et de sélectionner les classes que l'on souhaite réunir. Elles sont nommées automatiquement (paramétrable) et la métadonnée est ajoutée à tous les segments de la classe. La liste des classes retenues s'affiche dans la fenêtre de droite.
Le corpus que l'on obtient permet de faire des AFC ou l'analyse des distances de Labbé sur les classes.
Cette démarche est illustrée dans les articles suivants :
Ratinaud, P., & Marchand, P. (2016). Quelques méthodes pour l’étude des relations entre classifications lexicales de corpus hétérogènes : application aux débats à l’assemblée nationale et aux sites web de partis politiques. In D. Mayaffre, C. Poudat, L. Vanni, V. Magri, & P. Follette (Eds.), Statistical Analysis of Textual Data (pp. 193–202). http://lexicometrica.univ-paris3.fr/jadt/jadt2016/01-ACTES/83670/83670.pdf
Ratinaud, P., Smyrnaios, N., Figeac, J., Cabanac, G., Fraisier, O., Hubert, G., Pitarch, Y., Salord, T., & Thonet, T. (2019). Structuration des discours au sein de Twitter durant l’élection présidentielle française de 2017 : entre agenda politique et représentations sociales. Réseaux, 2019/2-3(214–215), 171–208. https://doi.org/10.3917/res.214.0171
Sur les matrices
- ElCaTeGoRiZaToR
C’est un outil d’aide à la catégorisation. Il a été d’abord pensé pour catégoriser les réponses à des associations verbales, mais il peut être utilisé pour catégoriser tout type de questions ouvertes, ou produire des regroupements de modalités sur des questions fermés ou des échelles. L’analyse se fait en trois étapes :
Dans une première étape, on sélectionne la ou les colonnes de la matrice que l’on souhaite catégoriser ;
Une interface avec trois colonnes apparaît :
- La colonne de gauche contient toutes les formes différentes à catégoriser, avec leurs effectifs ;
- La colonne du milieu est vide au départ. Elle contiendra les catégories créées (et leurs effectifs) ;
- La colonne de gauche montre le contenu de la catégorie sélectionnée, et leurs effectifs.
Pour créer une catégorie, on peut faire glisser les éléments de la colonne de gauche dans la colonne du milieu ou cliquer sur le bouton « ajouter une catégorie » ;
Pour ajouter un élément (ou plusieurs) à une catégorie existante, il faut le ou les sélectionner et faire glisser la sélection sur la catégorie cible ou dans la fenêtre de droite si la catégorie est sélectionnée.
Les catégories peuvent être renommées (double clique sur le nom de la catégorie) ;
Les changements ne sont pas enregistrés automatiquement : il est donc impératif de cliquer régulièrement sur le bouton « Enregistrer ».
Le bouton « exporter les colonnes » permet d’exporter les colonnes catégorisées dans l’ordre du fichier original ;
Le bouton « importer une catégorisation » permet de réutiliser une catégorisation précédente sur un nouveau jeu de données ;
Le bouton « exporter le dictionnaire » exporte le dictionnaire des catégories (liste des catégories avec leurs effectifs, les éléments qu’elles contiennent et leurs effectifs respectifs).
- Chi2 de McNemar
Propose un chi2 de McNemar (pour données appariées donc) sur des tableaux 2x2 (en croisant 2 colonnes contenant chacune une variable à 2 modalités).
Nouveautés dans les analyses
Classification Reinert (texte)
Nouvelle visualisation chronologique dans les profils de classe (clique droit dans le profil -> Visualisations chronologiques).
La lecture de ces analyses est décrite dans l'article suivant :
Ratinaud, P. (2014). Visualisation chronologique des analyses ALCESTE : application à Twitter avec l’exemple du hashtag #mariagepourtous. Actes Des 12eme Journées Internationales d’Analyse Statistique Des Données Textuelles (JADT 2014), 553–565. http://lexicometrica.univ-paris3.fr/jadt/jadt2014/01-ACTES/46-JADT2014.pdf
On peut tout à fait utiliser ces visualisations sur des métadonnées non chronologiques ;)
Spirale : nouvel algorithme de placement pour les graphes de mots.
Traduction des profils (clique droit sur le nom d'une classification dans l'historique) : un outil pour traduire les profils de classe (max 50 formes par classe + 50 formes supplémentaires maximum) a été ajouté. Il utilise une API gratuite de google et propose une traduction mot à mot. Quand on abuse de la chose, google blackliste votre IP et vous ne pouvez plus accéder à l'API pendant x jours. Vous êtes prévenus ;) On peut corriger la traduction dans les fichiers résultats. On obtient les profils dans la nouvelle langue. On peut utiliser cette traduction dans les dendrogrammes de l'onglet "CHD".
Dans l'exemple suivant, l'analyse a été réalisé sur un corpus en français et traduite en anglais, italien, greque et thai :
Analyse de similitude
L’algorithme de placement de Frutchterman-Reingold (choix par défaut) provient maintenant du package sna. Le résultat est beaucoup plus lisible que précédemment.
Par défaut, seuls les 200 premiers mots sont sélectionnés.
Les arêtes sont droites par défaut.
Ajout d'un bouton pour exporter la matrice de similitude. ATTENTION : ces matrices peuvent être énormes.
Spécificités et AFC
Un nouvel onglet présente les statistiques par colonne (occurrences, nombre de formes, nombres de textes, etc...). Le comptage des hapax est basé sur les hapax du corpus complet.
Actions sur le document