html
1 - Présentation d'Iramuteq
Ce chapitre est une introduction au projet Iramuteq :
vous y trouverez :
Actions sur le document
1.1 Présentation générale
Iramuteq est un logiciel d'analyse de textes et de tableaux de données. Il s'appuie sur le logiciel de statistique R (http://www.r-project.org) et sur le langage python (http://www.python.org).
Iramuteq propose un ensemble de traitements et d'outils pour l'aide à la description et à l'analyse de corpus texte et de matrices de type individus/caractères.
Actions sur le document
1.2 Principe de fonctionnement du logiciel
Iramuteq est une Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, son fonctionnement consiste à préparer les données et écrire des scripts qui sont ensuite analysés dans le logiciel statistique R. Les résultats sont finalement affichés par l'interface.
Lors de l'ouverture d'un corpus ou d'une matrice, Iramuteq crée un dossier sur le même emplacement que le fichier ouvert (il le nomme NomDuCorpus_X). C'est ici qu'il stockera les résultats.
Actions sur le document
2. Analyses de textes
Ce chapitre est consacré à la présentation des fonctions d'analyses textuelles disponibles :
Vous y trouverez :
2.2 Format des données en entrée
2.3 Ouverture de indexation d'un corpus texte
2.4 Traitement commun aux analyses (option de lemmatisation)
Actions sur le document
2.1 Un peu de vocabulaire...
Pour des raison de propriété intellectuelle, le vocabulaire de la méthode Reinert a été remplacé :
Alceste | Méthode Reinert |
---|---|
UCI : Unité de contexte initiale | TEXTE |
UCE : Unité de contexte élémentaire | ST : Segment de texte |
UC : Unité de contexte | RST : regroupement de segments de texte |
Actions sur le document
2.2 Format des données en entrée
Cette partie de la documentation se focalise sur le format des corpus à analyser.
Vous y trouverez :
Actions sur le document
2.2.1 Généralités
Les fichiers d'entrée doivent être au format texte brut (.txt), et de préférence contenir les caractères de ponctuations.
Dans ce formatage, l'unité de base est appelée « Texte ». Un texte peut représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir un ou plusieurs textes (mais au minimum un).
Actions sur le document
2.2.2 Les règles de formatages
Les textes sont introduits par quatre étoiles (****) suivies d'une série de variables étoilées (variables illustratives) séparées par un espace.
Un Texte doit obligatoirement avoir au moins une variable étoilée
Il est possible de placer des variables étoilées à l'intérieur des textes en les introduisant en début de ligne par un tiret et une étoile (-*). On parle alors de thématiques. La ligne ne doit contenir que cette variable.
Exemple d'un corpus sans thématique :
**** *var1_1 *var2_2
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
**** *var1_2 *var2_3
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
Exemple d'un corpus avec thématique :
**** *var1_1 *var2_2
-*thematique1
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
-*thematique2
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
**** *var1_2 *var2_3
-*thematique1
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
-*thematique2
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
Dans un corpus avec thématique, tous les paragraphes d'un texte doivent appartenir à une thématique. La construction suivante n'est donc pas possible :
**** *var_1
texteA TexteA texteA texteA texteA
-*thematique
texte texte texte texte texte texte texte
texte texte texte texte texte texte texte
La ligne « texteA texteA... » n'a pas de thématique
Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9 et des tirets bas (_).
*age 18 ans n'est pas un bon codage
*age_18 est un bon codage
*entretien_d'Emilie n'est pas un bon codage
*ent_emilie est un bon codage
Les codages de la forme *variable_modalité doivent être privilégiés pour les variables illustratives. Ils permettent des analyses complémentaires.
Exemple : *sex_h pour les hommes et *sex_f pour les femmes permet de repérer la variable sex et les modalités h et f.
Les analyses effectuées reposant sur le traitement informatique des données, leurs saisies se doivent d'être régulières, en respectant la case (Majuscule/Minuscule).
Exemple :
*sex_h, *sex_homme seront considérés comme deux modalité différente
*sex_h, *Sex_h, *sexe_h seront considérés comme trois variables différentes
Actions sur le document
2.3 Ouverture et indexation d'un corpus texte
Fichier → Ouvrir un corpus
Lors de l'ouverture d'un corpus, plusieurs traitements sont possibles, ils sont présentés dans ce chapitre.
Actions sur le document
2.3.1 Indexation
Une fois le fichier texte choisi, une boîte de dialogue s'ouvre :
Actions sur le document
2.3.1.1 Onglet « Général »
Le premier onglet permet de définir les caractéristiques générales du corpus, ainsi que les différentes options de l'indexation.
-
Corpus : C'est le chemin d'accès du fichier que vous ouvrez (donné à l'étape précédente)
-
Encodage : c'est l'encodage que vous avez utilisé lors de la création du corpus, nous vous recommandons de travailler en UTF8.
Par défaut l'option UTF 8 sera proposée sur les ordinateurs sous Mac OS X et linux, et CP 1252 sur ceux sous Windows.
Faite très attention à l'encodage des corpus lors de leur création. Il est préférable d'utiliser un éditeur de texte capable de gérer l'encodage comme la suite LibreOffice par exemple.
- Langue : c'est la langue dans laquelle est écrit votre corpus
Iramuteq ne peut pas analyser simultanément plusieurs langues dans un même corpus.
-
Répertoire en sortie : Après l'ouverture du corpus, Iramuteq crée un répertoire dans lequel seront stockés le corpus et les résultats. Par défaut il se situe au même emplacement que le corpus, et se nomme NomFichier_corpus_X. Son emplacement et son nom peuvent être changé ici.
-
Marqueur de texte : Indique au logiciel comment chaque texte est introduit. Pour des raisons de compatibilités avec les anciens corpus Alceste® il est possible d'utiliser 4 entiers à la place des 4 étoiles.
-
Utiliser le dictionnaire des expressions : Les dictionnaires des expressions contiennent des expressions ou des mots contenant des tirets (-) des apostrophes (') ou des espaces. Il permet de traiter ces expressions comme un tout, évitant ainsi de casser en deux formes les mots composés.
Les dictionnaires des lexiques et des expressions de chacune des langues sont disponibles dans le répertoire .iramuteq/dictionnaires dans l'environnement de l'utilisateur.
Mot d'origine |
Sans le dictionnaire d’expressions | Avec le dictionnaire d’expressions |
---|---|---|
vis-à-vis |
vis à vis (trois occurrences et deux formes différentes) |
vis_à_vis (une occurrence, une forme) |
aujourd'hui |
aujourd hui (2 formes, 2 occurrences) |
aujourd_hui (une occurrence, une forme) |
-
Construire des segments de textes : Permet le découpage de chaque texte en segment.
-
Mode de construction des segments de texte : Permet de choisir sur quelle unité se construiront les segments. Au choix :
-
caractères : les segments sont déterminés sur un critère de taille lié au nombre de caractères qu'ils contiennent.
-
occurrences :les segments sont déterminés sur un critère de taille lié au nombre d'occurrences qu'ils contiennent.
les segments de texte sont construits à partir d'un critère de taille et de ponctuation. Iramuteq cherche le meilleur ratio taille/ponctuation (par ordre de priorité, les ".", "?" "!" en premier, puis en second ";" et les ":" en troisième la virgule et en dernier l'espace). L'objectif est d'avoir des segments de tailles homogènes en respectant le plus possible la structure du langage.
-
paragraphe : Le retour à la ligne est utilisé comme marqueur de fin de segment de texte. La ponctuation n'est plus du tout prise en compte.
-
Taille des segments de textes : définit le nombre d'unités (voir plus haut) contenus dans le segment de texte. Cette option n'agit pas sur le découpage en paragraphe.
La modification du mode de construction de segments de texte implique la modification de la taille de ces derniers. L'analyse de segment composés de 40 caractères est rarement pertinente ;-)
Actions sur le document
2.3.1.2 Onglet Nettoyage
Le second onglet de cette boîte de dialogue concerne le nettoyage du corpus
-
Passer le corpus en minuscule : Converti toutes les majuscules en minuscules, si désactivé, Iramuteq considérera « Chat » et « chat » comme deux formes distinctes.
-
Retirer les caractères en dehors de cette liste : Par défaut seul les caractères alphanumériques et accentués sont conservés, si vous ne voulez pas conserver un de ces caractère, il vous suffit de le retirer de la liste. Si vous voulez conserver d'autres caractères vous pouvez en ajouter à la fin de la liste.
Pour les langues n'utilisant pas les caractères alphanumériques il est impératif de modifier cette liste.
Pour le bon fonctionnement du logiciel, vous ne devez pas forcer la conservation du signe double cote "
-
Remplacer les apostrophes par des espaces : remplace les apostrophe par des espaces
-
Remplacer des tirets par des espaces : remplace les – par des espaces
-
conserver la ponctuation : conserve la ponctuation.
si vous conservez la ponctuation, vous devez vérifier l'absence de point-virgule dans votre corpus.
-
Pas d'espace entre deux formes : si cette fonction est activée Iramute n'utilisera plus l'espace comme délimiteur de forme.
Actions sur le document
2.4 Traitements commun aux analyses (option de lemmatisation)
A chaque demande d'analyse sur un corpus, le dialogue suivant apparaît :
-
Lemmatisation : Cette option choisit si le corpus doit être lemmatisé ou pas.
-
Clés d'analyse : Permet de choisir les clés d’analyses.
Actions sur le document
2.4.1 Lemmatisation
Les verbes sont ramener à l'infinitif, les noms au singulier et les adjectifs au masculin singulier. Iramuteq réalise la lemmatisation à partir de dictionnaires, sans désambiguïsation. Les dictionnaires pour les différentes langues sont disponibles dans le répertoire .iramuteq/dictionnaires.
mangé, mangeons, mangera → manger
professionnelles, professionnelle, professionnels →professionnel
Actions sur le document
2.4.2 Clés d'analyse
La plupart des analyses sur corpus vont différentier des formes dites « pleines » (ou formes actives) et des mots outils (ou « formes supplémentaires »). Seuls les formes « actives » participent à certaines analyses, comme les classifications par exemples. En cliquant sur « préférences », vous accédez à un menu permettant d'affecter les valeurs active/supplémentaire ou éliminé à chaque type grammatical.
Ces données sont stockée dans le fichier key.cfg accessible dans le répertoire .iramuteq. Dans ce fichier la valeur 1 signifie que le type grammatical est actif, la valeur 2 signifie que le type est supplémentaire et la valeur 0 signifie que le type n'est pas pris en compte.
Voici la liste des types grammaticaux différentiés :
adj_sup: Adjectif supplémentaire | ver: Verbe |
art_ind: Article indéfini | adj_num: Adjectif numérique |
adj_pos: Adjectif possessif | pro_rel: Pronom relatif |
adv_sup: Adverbe supplémentaire | adj_ind: Adjectif indéfini |
pro_dem: Pronom démonstratif | pro_ind: Pronom indéfini |
art_def: Article défini | pro_pos: Pronom possessif |
con: Conjonction | aux: Auxiliaire |
pre: Préposition | ver_sup: Verbe supplémentaire |
ono: Onomatopée | adj: Adjectif |
adj_dem: Adjectif démonstratif | adj_int: Adjectif interrogatif |
nom_sup: Nom supplémentaire | nom: Nom commun |
adv: Adverbe | num : Chiffre |
pro_per: Pronom personnel | nr : Formes non reconnues |
Actions sur le document
2.5 Les différentes analyses textuelles
Une fois le corpus indexé (voir chapitre 2.3), dans le bandeau gauche d'Iramuteq s'affiche le raccourci NomFichier_corpus_X, un clic droit dessus vous donne accès aux analyses disponibles. Elles sont aussi accessibles dans la barre de tâche sous l'option « analyse de corpus ».
Actions sur le document
2.5.1 Statistiques textuelles
Cette analyse propose des statistiques simples sur les corpus texte : effectif de toutes les formes, effectif des formes actives et supplémentaires, liste des hapax.
Actions sur le document
2.5.1.1 Paramétrage de l'analyse statistiques textuelles
Il n'y a pas de paramétrage pour cette analyse.
Actions sur le document
2.5.1.2 Résultats de l'analyse statistiques textuelles
Dans cette partie nous vous présenterons les différents onglets de résultats.
|
|
---|
Vous trouverez :
2.5.1.2.3 Onglet formes actives
Actions sur le document
2.5.1.2.1 Résultats de l'analyse statistiques textuelles - Onglet Global
Sur cet écran vous trouverez plusieurs informations :
-
Nombre de Textes : c'est le nombre de Textes contenus dans le corpus.
-
Nombre d’occurrences : c'est le nombre total de mots contenus dans le corpus. il diffère si le corpus est lemmatisé ou non.
-
Nombre de formes : C'est le nombre de formes présentes dans le corpus, il diffère si le corpus est lemmatisé ou non.
-
Moyenne d’occurrences par forme : (nombre d’occurrence) / (Nombre de formes).
-
Nombre d'Hapax : c'est le nombre de mots n'apparaissant qu'une seule fois dans tout le corpus.
-
Moyenne d’occurrences par Textes: (nombre d’occurrences) / (nombre de Textes)
-
Le graphique : présente en abscisse les logarithmes des rangs et en ordonnées les logarithmes des fréquences des formes.
Actions sur le document
2.5.1.2.2 Résultats de l'analyse statistiques textuelles - Onglet formes actives
Liste des formes actives (colonne forme) avec leurs effectifs (colonne nb) et leurs catégories grammaticale (colonne type).
Actions sur le document
2.5.1.2.3 Résultats de l'analyse statistiques Textuelles - Onglet Formes supplémentaires
Liste des formes supplémentaires (colonne forme) avec leur effectif (colonne nb) et leur catégorie grammaticale (colonne type).
Actions sur le document
2.5.1.2.4 Résultats de l'analyse statistiques Textuelles - Onglet Total
Liste des toutes les formes actives et supplémentaires (colonne forme) avec leurs effectifs (colonne nb) et leurs catégories grammaticale (colonne type).
Actions sur le document
2.5.1.2.5 Résultats de l'analyse statistiques Textuelles - Onglet Hapax
Liste des hapax (colonne forme) avec leurs effectifs (colonne nb) et leurs catégories grammaticale (colonne type).
Actions sur le document
2.5.1.2.6 Options Supplémentaires de l'analyse statistiques textuelles
Cette partie présente les options supplémentaires de l'analyse statistiques textuelles.
Vous y trouverez :
Actions sur le document
2.5.1.2.6.1 Options Supplémentaires de l'analyse statistiques textuelles - Sur chaque forme
Un menu d'options supplémentaires est accessible à partir d'un clic droit sur une des formes, il vous permet d'afficher pour chacune d'entre elles les formes associées, et le concordancier des segments de textes où figure la forme.
Actions sur le document
2.5.1.2.6.2 Options Supplémentaires de l'analyse statistiques textuelles - Sur l'analyse
Dans l'historique du panneau de gauche, un clic droit sur l'analyse ouvre un menu d'options disponibles :
- Informations : Permet de récupérer les informations propres à l'analyse.
- Exporter le dictionnaire : génère un fichier dictionary.csv (Tabulation comme séparateur) reprenant les occurrences. elles se présentent ainsi
-
Forme Lemme Type grammatical effectif professeurs professeur nom 25
Ce dictionnaire est dans le format utilisé par Iramuteq, il peut donc être directement utililsé pour une analyse.
- Exporter le dictionnaire des lemmes : génère un fichier lemme.csv (Tabulation comme séparateur) reprenant le lemme, puis les variantes et leurs effectifs :
-
Lemme Forme1 Effectif Forme1 Forme2 Effectif Forme2 Primaire Primaire 6 Primaires 9
Actions sur le document
2.5.1.3 Fichiers en sortie
Comme pour chaque analyse, Iramuteq crée un nouveau répertoire dans le dossier créé lors de l'ouverture du corpus. Nommé « NomDuCorpus_Stat_x », il contient les fichiers suivants :
-
Répertoire de sortie
NomDuCorpus_Stat_x
Fichiers en sortie :
total.csv
Toute les formes et leur effectif
formes_supplémentaires.csv
Les formes supplémentaires et leur effectif
formes_actives.csv
Les formes actives et leur effectif
glob.txt
Résultats de l'analyse
hapax.csv
Les hapax
Zipf.png
L'image du graphique présent dans « Global »
Analyse.ira
Fichier permettant à Iramuteq d'ouvrir l'analyse.
Actions sur le document
2.5.2 Spécificités et AFC
Produit une analyse factorielle des correspondances sur un tableau de contingence qui croise formes actives et les variables.
Actions sur le document
2.5.2.1 paramétrage de l'analyse spécificités et AFC
Après le menu des préférences (voir chapitre 2.4), un menu de « choix des variables » s'affiche
Voici les différentes options proposées :
-
Sélection par : Vous permet de sélectionner toutes les modalités d'une variable (option « variable »), soit uniquement certaines modalités (option « modalité »).
-
Choix : vous devez sélectionner une variable
-
Indice : Deux possibilités de calcul sont possibles, le Chi2 ou la loi hypergéométrique.
-
Effectif minimum : Seule les formes dont le nombre d'occurrences dans le corpus complet est supérieur à ce seuil seront affichées.
La sélection d'une variable est OBLIGATOIRE, si vous validez sans l'avoir sélectionnée, un message de Bug s'affichera. Cette variable doit avoir au minimum 2 modalités.
Si vous sélectionnez plusieurs variables, une seule sera prise en compte.
Ne jamais sélectionner 2 modalités de variables pouvant être présente sur la même ligne (deux modalités n’appartenant pas à la même variable), l'analyse n'aurait plus aucun sens.
Actions sur le document
2.5.2.2 Présentations des résultats Spécificités et AFC
Les résultats qui vont suivre sont disponibles pour les formes/lemmes, et les catégories grammaticales.
-
Les onglets Formes et Types : Ils présentent la liste des formes et des catégories grammaticales, et leur score par modalité.
- Les onglets Effectifs : effectif de chaque forme/lemme (ou catégorie grammaticale) dans les textes présentant la modalité de la variable.
- Les onglets Effectifs relatifs donne les effectifs relatifs en pour mille (‰)
- L'onglet AFC : Présente le graphique de l'AFC (facteurs ½)
l’icône permet d'afficher les options de graphique, et de le réafficher. Deux sous-onglet existent, pour les formes, et pour les types (voir refaire les AFC)
Actions sur le document
2.5.2.2.1 Analyses complémentaires des Spécificités et AFC
Un menu d'options supplémentaires est accessible à partir d'un clic droit sur une des formes :
il vous permet d'afficher pour chacune d'entre elles les formes associées, le concordancier des segments de textes où figure la forme, ainsi qu'un graphique reprenant les scores spécifiques de la forme par modalité de variable.
Actions sur le document
2.5.2.3 Fichiers en sortie
-
Répertoire de sortie
NomDuCorpus_Spec_x
Fichiers en sortie
Tabletypem.csv
Effectif des types grammaticaux par modalité
Tablespect.csv
Score de spécificité des Types grammaticaux par modalité
Tablespecf.csv
Score de spécificité des formes par modalité
Tableafcm.csv
Effectif des formes par modalité
liste_graph_afct.txt
Fichier Iramuteq
liste_graph_afcf.txt
Fichier Iramuteq
eff_relatif_type.csv
Effectif relatif des types grammaticaux par modalité
eff_relatif_forme.csv
Effectif relatif des formes par modalité
Analyse.ira
Permet d'ouvrir l'analyse
afct_row.png
Plan factoriel des types grammaticaux
afct_row.csv
Détail des valeurs des lignes de l'AFC sur les types grammaticaux
afct_facteur.csv
Valeurs Propres, Pourcentages, Pourcentages cumulés de chaque facteur (pour les types grammaticaux)
afct_col.png
Plan factoriel des colonnes de l'AFC sur les types grammaticaux
afct_col.csv
Détail des valeurs des colonnes de l'AFC sur les types grammaticaux
afcf_row.png
Plan factoriel des formes
afcf_row.csv
Détail des valeurs des lignes de l'AFC sur les formes
afcf_facteur.csv
Valeurs Propres, Pourcentages, Pourcentages cumulés de chaque facteur (pour les formes)
afcf_col.png
Plan factoriel des colonnes de l'AFC sur les formes
afcf_col.csv
Détail des valeurs des colonnes de l'AFC sur les formes
Actions sur le document
2.5.3 Classification Méthode Reinert
ette analyse propose une classification hiérarchique descendante selon la méthode décrit par Reinert (1983, 1986, 1991). Cette classification est proposée selon trois modalités :
- Classification simple sur texte : Ici, les Textes resteront dans leur intégralité, la classification permettra ainsi de regrouper les Textes les plus proches.
- Classification simple sur segment de texte : La classification portera sur les segment de textes (ST).
- Classification double sur RST : La classification est menée sur deux tableaux dans lesquels les lignes ne sont plus des segments de texte mais des regroupements de segments de texte (RST). Le même traitement est ainsi fait deux fois, mais en changeant le nombre de formes actives par RST.
Voir le détail de la classification selon la méthode Reinert en annexe.
Actions sur le document
2.5.3.1 Paramétrages de l'analyse Classification Méthode Reinert
Après le menu des préférences (voir chapitre 2.4), un menu de « Options » s'affiche
-
Classification : Permet de choisir le mode de classification (voir chapitre 2.5.3)
-
Taille rst1 et rst2 : pour la classification double sur RST permet de faire varier la taille des regroupements de segments de texte sur les deux passages, ces unités représentent le nombre de formes actives regroupées par ligne.
-
Nombre de classes terminales de la phase 1 : Détermine le nombre de classes de la première partie de la classification, par défaut elle est réglée sur 10, mais doit être ajustée à la taille et à l’hétérogénéité du corpus.
-
Nombre minimum de segments de texte par classe : détermine un seuil minimal de ST en dessous duquel les classes ne seront pas sélectionnées. Par défaut ce nombre est égal au nombre de segments de texte divisé par le nombre de classe terminale pour la classification simple, et au nombre de segments de texte divisés par 2 fois le nombre de classes terminales pour la classification double RST.
-
Fréquence minimum d'une forme analysée : cette option n'est pas disponible.
-
Nombre maximum de forme analysées : Par défaut, les 3000 formes actives les plus fréquentes et les 3000 formes supplémentaires les plus fréquentes seront retenues. Une forme doit avoir au minimum une fréquence de 3 pour être retenue. Si le corpus à moins de 3000 formes, toutes les formes avec une fréquence supérieure ou égale à 3 seront retenues.
Ce paramètre a une forte incidence sur la taille des tableaux analysés et donc sur la quantité de mémoire de l'ordinateur mobilisée. Si votre ordinateur n'a pas assez de mémoire pour analyser un corpus, essayez de baisser ce paramètre. Si votre ordinateur possède « suffisamment » de mémoire pour le corpus et que le corpus possède plus de 3000 formes de fréquence ≥ 3, n'hésitez pas à l'augmenter.
-
Méthode pour SVD : Cette option permet de choisir l’algorithme utilisé dans les décompositions en valeur singulières.
-
Mode Patate : cette option supprime la deuxième phase de chaque partition (voir annexe). Elle permet une analyse un peu plus rapide mais un peu moins précise.
Actions sur le document
2.5.3.2 Résultats de la Classification Méthode Reinert
Les résultats directement disponibles présentent un résumé de la classification (onglet CHD) les profils des classes (onglet Profils), et une analyse factorielle des correspondances menées sur le tableau de contingence croisant formes/lemmes et classes (onglet AFC).
Actions sur le document
2.5.3.2.1 Résultats de la Classification Méthode Reinert - CHD
Sur le premier onglet, vous pouvez distinguer 3 blocs distincts :
le premier constitué de texte reprend les statistiques textuelles du corpus. En plus des items déjà vus au chapitre 2.5.1, vous pourrez y trouver :
-
moyenne d'occurrences par segment
-
le nombre de segments classés sur la totalité du corpus.
La seconde partie est constituée du dendrogramme, il représente la partition, et une indication de la taille des classes (exprimée en pourcentage du corpus classé).
Pour finir le troisième élément est le dendrogramme de la phase 1, les classes notées 0 représentent les classes non retenues
À gauche de ces éléments, apparaît le bouton
vous permettant de refaire le dendrogramme.
Actions sur le document
2.5.3.2.2 Résultats de la Classification Méthode Reinert - Les Profils
Pour chaque classe sont édités les profils, ces tables présentent les formes/lemmes caractéristiques des classes. Dans ces onglets, vous trouverez :
-
Le titre : il est composé du nom de la classe puis du nombre de ST de la classe, puis du nombre ST participant à la classification finale, puis du pourcentage des ST de la classe par rapport au nombre de segment de texte participant à la classification finale.
Sur l'onglet activé, on lit : Classe 4 (67/280 – 23,93%) => sur les 280 segments de textes classés, 67 appartiennent à cette classe, ce qui représente 23,93 % des segments de texte classés.
-
Le contenu : il est présenté sous forme de tableaux, utilisant un code de 3 couleurs les formes actives apparaissent en gris, les formes supplémentaires en bleu et les variables illustratives en rose. A l'intérieur de chacune de ces catégories les formes sont présentées dans l'ordre décroissant des Chi2 de liaison à la classe.
- num : le numéro de la ligne (permet à l'utilisateur de retrouver le classement initial).
- Eff. s.t : Effectif des segments de texte, c'est le nombre de ST de cette classe contenant au moins une fois la forme
eff. Total : Effectif total des segments de texte, c'est le nombre de ST dans tout le corpus classé contenant au moins une fois la forme
pourcentage : c'est pourcentage de eff. ST / eff Total
Chi2 : chi2 exprimant la force du lien entre la forme et la classe (voir annexe)
Type : catégorie grammaticale de la forme
Forme : forme ou lemme concerné
p : Seuil de significativité associé au Chi2
-Pour rechercher une forme dans le profil ouvert, vous pouvez appuyer sur la touche CTRL+F
Pour rechercher une forme dans tous les profils, vous pouvez appuyer sur la touche CTRL+Shift+F
Actions sur le document
2.5.3.2.3 Résultats de la Classification Méthode Reinert - L'AFC
Dans cet onglet vous trouverez l'AFC déduite de la classification,
-
L'onglet AFC : Présente le graphique de l'AFC, l’icône permet d'afficher les options de graphique, et de le réafficher.
-
L'onglet Facteurs : présente les valeurs propres, pourcentages et pourcentages cumulés de chaque facteur.
-
L'onglet graph 3D : produit un graphe des distances minimum sur les formes en 3 dimensions.
Actions sur le document
2.5.3.2.4 Options supplémentaires de la Classification Méthode Reinert
Cette partie présentes les différentes options supplémentaires de la classification Méthode Reinert.
Vous y trouverez :
Actions sur le document
2.5.3.2.4.1 Options supplémentaires de la Classification Méthode Reinert - pour chaque classes
Pour aider votre étude des profils, Iramuteq vous propose diverses options, vous y avez accès dans chaque classe en effectuant un clic droit sur la ligne vous intéressant. Le menu suivant apparaît :
-
Les formes associées : Donne les effectifs dans la classe des formes regroupées dans un lemme
-
Chi2 par classe : crée un graphique qui présente le Chi2 d'association de la forme à chacune des classes. Plusieurs formes peuvent être sélectionnées en même temps (maintenir la touche Ctrl enfoncée)
-
-
Chi2 par classe + dendro : reprend le même graphique en barre, en le projetant sur le dendrogramme.
-
-
-
Chi2 Modalités de la variable : crée un graphique qui représente le chi2 d'association des modalités de la variable sélectionnée à chacune des classes. Nécessite un formatage du type variable_modalité.
-
-
Graphe du mot : crée un graphe de similitude représentant les liens de la forme sélectionnée avec les autres formes de la classe (voir #Ref pour plus de détails).
- Concordancier : propose le concordancier de la (ou des) forme(s) / lemmes sélectionnée(s). Ce concordancier est disponible pour les segments de texte de la classe, ceux classées ou tous ceux du corpus.
-
Outils du CNRTL : interroge la base de données du Centre Nationale de Ressources Textuelles et Lexicales (http://www.cnrtl.fr/) à partir de la forme / du lemme sélectionnée (nécessite d'être connecté à Internet, ne fonctionne que pour le français). Permet d'obtenir une définition (Lexicographie), les synonymes (Synonymie), les Antonymes (Antonymie), l'étymologie (Etymologie), la morphologie (Morphologie) ou un graphe de proxémie de la forme. Les résultats s'affichent dans le navigateur internet par défaut du système. Cette option n'a de sens que sur un corpus en français.
-
Graphe de classe : indépendant de la ligne sélectionnée. Il s'agit d'une analyse de similitude menée sur un tableau absence/présence (0/1) qui croise les unités choisies en ligne (TEXTE ou ST) et les formes actives de la classe en colonne. La matrice de similitude est construite sur les colonnes (les formes actives de la classe). Voir chapitre 2.5.4 pour plus de détails.
-
Segments répétés : indépendant de la ligne sélectionnée. Effectifs et tailles des segments répétés de la classe. Préférez les profils des segments répétés.
-
Segments de texte caractéristiques : indépendant de la ligne sélectionnée. Liste les ST caractéristiques de la classe. Deux scores sont proposés :
-
absolu : les ST sont classées en fonction de la somme des chi2 de liaison à la classe des formes actives qu'ils contiennent.
-
Relatif : les ST sont classées en fonction de la moyenne des chi2 de liaison à la classe des formes actives qu'ils contiennent.
-
-
Exporter : exporte tous les ST présents dans la classe, ils peuvent ainsi constituer un nouveau corpus.
Actions sur le document
2.5.3.2.4.2 Options supplémentaires de la Classification Méthode Reinert - pour chaque classes - pour la classification
En plus de ces outils, vous trouverez d'autres options en effectuant un clic droit sur l'analyse, dans le menu « navigateur » à gauche d'Iramuteq.
-
Informations : reprend les caractéristiques choisies pour la classification (voir chapitre 2.5.3.1)
-
Ouvrir -> Anti-profils, sur la même présentation que les profils seront affichés les anti-profils, ce sont les formes significativement absentes de la classe.
-
Profils des segments répétés : Calcule les profils des segments répétés.
-
Profil des types : Calcule les profils des types grammaticaux.
-
Exporter le corpus : cette fonction permet d'exporter le corpus découpé en segments de texte en ajoutant en variable étoilée la classe du ST. Les segments de texte écartés de la classification apparaîtront avec la variable *classe_0.
-
Corpus en couleur : Cette fonction crée un fichier .html retranscrivant le corpus entier, où chaque segment de texte apparaît de la couleur de sa classe. Les ST non classés sont écrits en noir. Le fichier créé est accessible dans le répertoire de l'analyse.
- Outil de navigation : Matrice reprenant toutes les formes avec leur Chi2 de liaison à chaque classe.
-
Statistiques par classe : cette fonction crée un fichier .csv dans le répertoire de l'analyse (stat_par_classe.csv) qui contient pour chacune des classes : le nombre total d'occurrences, le nombre de formes différentes,, le nombre d'hapax, le nombre de segments de texte, et le ratio nbre d'hapax/ nbre de formes.
-
Rapport : cette fonction crée un fichier RAPPORT.TXT, qui contient les statistiques générales de la classification et les profils.
-
Supprimer de l'historique : efface cette analyse de l'historique d'Iramuteq.
Actions sur le document
2.5.3.3 Fichiers en sortie pour la classification
-
Répertoire de sortie
NomDuCorpus_Alceste_x
Fichiers en sortie :
AFC2DCL.png
graphique AFC : Classes - Coordonnées - facteur 1 / 2
AFC2DEL.png
graphique AFC : Variables illustratives - Coordonnées - facteur 1 / 2
AFC2DL.png
graphique AFC : Variables actives - coordonnées - facteurs 1 / 2
AFC2DSL.png
graphique AFC : variables supplémentaires - coordonnées - facteurs 1 / 2
afc_col.csv
Résultats de l'AFC ; Coordonnées, corrélation, MASS, contribution des classes : voir le manuel de la librairie ca de R pour plus de détails.
afc_facteur.csv
Résultats de l'AFC ; Valeurs propres, Pourcentage d'inertie extraite et Pourcentage cumulé des facteurs.
afc_row.csv
Résultats de l'AFC ; Coordonnées, corrélation, MASS, contribution des formes : voir le manuel de la librairie ca de R pour plus de détails.
Analyse.ira
Fichier Analyse : permet d'ouvrir une analyse.
antiprof_segments.csv *
Antiprofils des segments répétés
antiprof_type.csv *
Antiprofils des types grammaticaux
Antiprofile.csv
Antiprofils des formes
Arbre_1.png
Dendrogramme de la première CHD
Chistable.csv
Chi2 d'association de chaque forme aux classes
classe_mod.csv
Tableau de contingence formes actives/classes
corpus_couleur.html *
Corpus respectant les couleurs des classes d'appartenance.
Dendro1.png
Dendrogramme de la classification
Export_corpus.txt *
Fichier créé par l'option « exporter le corpus »
Info.txt
Résumé de la classification
liste_graph_afc.txt
Fichier Iramuteq
liste_graph_chd.txt
Fichier Iramuteq
ListeUCE1.csv
Fichier Iramuteq
prof_segments.csv *
Profils des segments répétés
profil_type.csv *
Profils des types grammaticaux
Profiles.csv
Profils des classes
Ptable.csv
Seuil de significativité des chi2 d'association de chaque forme aux classes.
RAPPORT.txt *
Fichier créé par l'option « Rapport »
SbyClasseOut.csv
Fichier Iramuteq
segment_classe.csv *
Tableau de contingence des segments répétés/classes
stat_par_classe.csv *
Fichier créé par l'option « Stat par classe »
Tablet.csv
Tableau de contingence des variables illustratives/classes
Tablesup.csv
Tableau de contingence des formes supplémentaires/classes
TableUC1.csv
Matrice utilisée pour l'analyse au format MatrixMarket
type_cl.csv *
Tableau de contingence des types grammaticaux/classes
Uce.csv
Positionnement des segments de textes par classes
Actions sur le document
2.5.4 Analyses de similitude
Cette analyse produit des graphes à partir de la librairie « igraph » de R. Le tableau en entrée est un tableau de présence / absence. La matrice de similitude est calculée à partir de l'un des indices proposés. La plupart des indices proposés sont issus de la librairie « proxy » de R. Voir le détail des indices de similitude en annexe.
Actions sur le document
2.5.4.1 paramétrage de l'Analyse de Similitude sur textes
Après le menu des préférences, un menu de paramétrage s'affiche.
Ce menu se compose de trois parties :
-
La liste des formes : Dans le cadre de gauche, sont présentées les formes et leurs fréquences, par défaut elles sont toutes sélectionnées.
-
Les paramètres du graphe : C'est l'onglet actif lors de l'ouverture de ce menu. Il permet de choisir les caractéristiques du graphe. Dans l 'ordre, nous trouvons :
-
Indice : permet de choisir le type d'indice de similitude utilisé (cooccurrence par défaut)
-
Layout : mode de présentation des données. Les options sont aléatoires (random), cercle, Fruchterman Reingold, Kamada-Kawaï, graphopt. Voir la documentation de la librairie igraph pour plus de détails
-
-
Type de graphique : choix de la méthode de présentation du graphe.
-
Statique : produit une image png ou svg
-
Statique : produit une image png ou svg
-
Dynamique : utilise l'interface tk d'igraph. Cette interface permet d'organiser les graphes et de conserver les coordonnées pour réutilisation dans un graphe statique.
-
3D : produit un graphe en trois dimensions qui s'ouvre dans une fenêtre rgl.
-
Format de l'image : permet d'enregistrer l'image en .png ou .svg
-
Arbre maximum : calcul de l'arbre maximum
-
Graphe à seuil : permet d'éliminer les arêtes pour lesquelles la valeur de l'indice est inférieure ou égale au seuil choisi.
-
Texte sur les sommets : affiche du texte sur les sommets des graphes
-
Indice sur les arêtes : affiche le texte sur les arêtes du graphe
-
Taille du texte : Indique la taille du texte sur le graphe
-
communauté : Permet un calcul de communauté (voir la documentation de la librairie igraph pour plus de détails).
-
halo : représente les communautés par un halo de couleur.
-
sélectionner une variable : ouvre après validation un nouveau menu permettant de choisir une variable (ou plusieurs modalités). Les formes caractéristiques des modalités seront mises en couleur.
Option sélection de variable : pour les détails de cette fenêtre
-
Les paramètres graphiques : c'est le second onglet, il permet de modifier les caractéristiques visuelles du graphe.
-
Taille du graphique : taille de l'image produite (en pixels)
-
Taille des sommets proportionnelle à l'effectif : permet d'assigner une taille des sommets proportionnelle à l'effectif de la forme (eff) ou à son chi2 (chi2).
-
Taille du texte des sommets proportionnelle à l'effectif : permet d'assigner une taille du texte des sommets proportionnelle à l'effectif (eff) de la forme ou à son chi2.
-
Largeur des arêtes proportionnelle à l'indice : permet d'assigner une largeur des arêtes proportionnelle à la valeur de l'indice.
-
Gradiant de gris sur les textes en fonction de l'effectif (du chi2) permet d'ajuster la couleur du texte des sommets en fonction de l'effectif de la forme.
-
Couleur des sommets / Couleurs des arêtes : affecte les couleurs aux sommets et/ou arêtes
-
Taille des sommets : assigne une taille unique aux sommets du graphe
-
Transparence des sphères : règle la transparence des sphères pour les graphes en 3D
-
Faire un film : permet de faire un film représentant un tour complet d'un graphe en 3D
Actions sur le document
2.5.4.2 Résultats de l'analyse de similitude
Les résultats s'ouvrent dans un nouvel onglet, sur la gauche sont présentes deux icônes :
Cette icône permet d'ouvrir à nouveau le menu paramètre, en conservant les derniers choix.
Cette icône exporte le dernier graphe au format graphml. Ce graphique peut alors être ouvert dans des logiciels comme Gephi ou visone.
Actions sur le document
2.5.4.3 Fichiers en sortie
-
Répertoire de sortie
NomDuCorpus_simitxt_x
Fichiers en sortie :
Actives.csv
Liste des formes actives
Analyse.ira
Fichier Analyse : permet d'ouvrir une analyse.
graph_simi_X.png
Graphique au format .png (à chaque réédition du graphe, un nouveau fichier se crée)
liste_graph.txt
Fichier Iramuteq
listeuce1.csv
Fichier Iramuteq
mat01.csv
Matrice utilisée pour l'analyse au format MarketMatrix
RData.RData
Fichier R
Selected.csv
Liste des identifiants des formes sélectionnées (se recharge à chaque réédition)
Actions sur le document
2.5.5 Nuage de mots
Iramuteq vous permet à partir de vos corpus de générer des nuages de mots
Vous trouverez dans cette partie :
2.5.5.1 Paramétrage de l'analyse Nuages de Mots
2.5.5.2 Présentation des résultats de l'analyse Nuages de mots
Actions sur le document
2.5.5.1 Paramétrage de l'analyse Nuage de mots
Après le menu des préférences (voir chapitre 2.4), un menu de paramétrage s'affiche.
-
Hauteur/Largeur : fixe les dimensions du nuage
-
Format de l'image : permet d'enregistrer l'image en .png ou .svg
-
Nombre maximum de formes : Nombre maximum de formes présentes dans le nuage
-
Formes retenues : permet de choisir entre Formes actives et/ou supplémentaires
-
Taille du texte : fixe les limites supérieures et inférieures de la taille du texte
-
Couleur du texte/fond : définit les couleurs
Après validation, la liste des formes et leur fréquence sont affichées, par défaut elles sont toutes sélectionnées, l'utilisateur peut en exclure, ou choisir sa liste (pour sélectionner plusieurs formes, maintenir la touche « Ctrl » lors de la sélection)
Actions sur le document
2.5.5.2 Résultats de l'analyse Nuage de mots
Les résultats s'ouvrent dans un nouvel onglet.
Actions sur le document
2.5.5.3 Fichiers en sortie
-
Répertoire de sortie
NomDuCorpus_worldcloud_x
Fichiers en sortie :
Actives_eff.csv
Liste des formes actives avec leur fréquence
Analyse.ira
Fichier Analyse : permet d'ouvrir une analyse.
Nuage_1.png
Image de sortie du nuage
Selected.csv
Liste des identifiants des formes sélectionnées
Actions sur le document
2.6 Réédition des graphiques
Pour les analyses portant sur des graphiques, Iramuteq vous permet de rééditer ces derniers,
Actions sur le document
2.6.1 Menu de réédition des dendrogrammes
Cette boîte de dialogue est accessible par l'icône à gauche des dendrogrammes
-
Hauteur / largeur : Taille de l'image en pixels
-
type de dendrogramme : permet de choisir le type de dendrogramme (phylogram,cladogram, fan, unrooted, radial)
- Ajouter la taille des classes : permet de faire apparaître sur le dendrogramme la taille des classes (en barres ou camemberts)
Actions sur le document
2.6.2 Menu de réédition des AFC
Cette boîte de dialogue est accessible par l'icône à gauche des AFC
-
Type de graphique : permet de choisir les graphiques en 2D ou 3D
-
Format de l'image : permet de choisir le format d'enregistrement de l'image
-
Représentation : choisit le mode de représentation par coordonnées , ou corrélations
-
Variable : choisit quelles formes analyser, Actives, supplémentaires, classes (ici le titres des colonnes)
-
Largeur/hauteur : définit les dimensions du graphique (en px)
-
Taille du texte : définit la taille du texte
-
Prendre les x premiers points : Prends les x premiers points qui ont les chi2 les plus forts dans l'ensemble de la classification.
-
Prendre les x premiers points par classe : Prend les x premiers point qui ont les chi2 les plus forts par classe
-
Limiter le nombre de points par le chi2 de liaison par classe : seuil minimal de liaison à la classe pour apparaître
-
Élimine les recouvrements : cette option évite le recouvrement du label des points, elle produit un biais, mais permet une meilleure lisibilité.
-
Taille du texte proportionnel à l'effectif de la forme : règle la taille du texte en fonction de l'effectif de la forme dans le corpus.
-
Taille du texte proportionnel au chi2 d'association de la forme : règle la taille du texte en fonction du chi2 de liaison à la classe
-
facteurX /facteurY/facteurZ : respectivement facteur en abscisse, facteur en ordonnée, facteur en cote
-
Transparence des sphères : permet d'ajuster la transparence des sphères dans les graphiques en 3D
-
Faire un film : disponible uniquement pour les graphiques en 3D, produit un .gif animé qui représente une rotation de 360° du graphique.
Actions sur le document
Actions sur le document