Vous êtes ici : Accueil / Documentation / html

html

1 - Présentation d'Iramuteq

 

Ce chapitre est une introduction au projet Iramuteq :

Accueil_06Alpha3.png

vous y trouverez :

 

1.1 Présentation d'Iramuteq

1.2 Présentation générale

1.3 Réédition des graphiques

Actions sur le document

1.1 Présentation générale

Iramuteq est un logiciel d'analyse de textes et de tableaux de données. Il s'appuie sur le logiciel de statistique R (http://www.r-project.org) et sur le langage python (http://www.python.org).

Iramuteq propose un ensemble de traitements et d'outils pour l'aide à la description et à l'analyse de corpus texte et de matrices de type individus/caractères.

 

 

Actions sur le document

1.2 Principe de fonctionnement du logiciel

Iramuteq est une Interface de R pour les Analyses Multidimensionnelles de Textes et de Questionnaires, son fonctionnement consiste à préparer les données et écrire des scripts qui sont ensuite analysés dans le logiciel statistique R. Les résultats sont finalement affichés par l'interface.

Lors de l'ouverture d'un corpus ou d'une matrice, Iramuteq crée un dossier sur le même emplacement que le fichier ouvert (il le nomme NomDuCorpus_X). C'est ici qu'il stockera les résultats.

 

 

Actions sur le document

2. Analyses de textes

 

Ce chapitre est consacré à la présentation des fonctions d'analyses textuelles disponibles :

graph_simi_2.pngdendrogamme_4.pnggraph_afc_1.png

Vous y trouverez :

2.1 Un peu de vocabulaire

2.2 Format des données en entrée

2.3 Ouverture de indexation d'un corpus texte

2.4 Traitement commun aux analyses (option de lemmatisation)

2.5 Analyse de texte

Actions sur le document

2.1 Un peu de vocabulaire...

 

Pour des raison de propriété intellectuelle, le vocabulaire de la méthode Reinert a été remplacé :

AlcesteMéthode Reinert
UCI : Unité de contexte initiale TEXTE
UCE : Unité de contexte élémentaire ST : Segment de texte
UC : Unité de contexte RST : regroupement de segments de texte



Actions sur le document

2.2 Format des données en entrée

Cette partie de la documentation se focalise sur le format des corpus à analyser.

 Vous y trouverez :

2.2.1 Généralités

2.2.2 Les règles de formatages

Actions sur le document

2.2.1 Généralités

Les fichiers d'entrée doivent être au format texte brut (.txt), et de préférence contenir les caractères de ponctuations.

Dans ce formatage, l'unité de base est appelée « Texte ». Un texte peut représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir un ou plusieurs textes (mais au minimum un).

 

 

Actions sur le document

2.2.2 Les règles de formatages

 

Les textes sont introduits par quatre étoiles (****) suivies d'une série de variables étoilées (variables illustratives) séparées par un espace.

Erreur Un Texte doit obligatoirement avoir au moins une variable étoilée

 

Il est possible de placer des variables étoilées à l'intérieur des textes en les introduisant en début de ligne par un tiret et une étoile (-*). On parle alors de thématiques. La ligne ne doit contenir que cette variable.

 

Exemple d'un corpus sans thématique :

**** *var1_1 *var2_2
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte

**** *var1_2 *var2_3
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte

 

Exemple d'un corpus avec thématique :

**** *var1_1 *var2_2
-*thematique1
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
-*thematique2
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte

**** *var1_2 *var2_3
-*thematique1
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte
-*thematique2
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte

 

Erreur Dans un corpus avec thématique, tous les paragraphes d'un texte doivent appartenir à une thématique. La construction suivante n'est donc pas possible :

**** *var_1
texteA TexteA texteA texteA texteA
-*thematique
texte texte texte texte texte texte texte
texte texte texte texte texte texte texte

La ligne « texteA texteA... » n'a pas de thématique

 

 

 

Erreur 

Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9 et des tirets bas (_).
*age 18 ans n'est pas un bon codage
*age_18 est un bon codage
*entretien_d'Emilie n'est pas un bon codage
*ent_emilie est un bon codage

 

 

 

 

methodeLes codages de la forme *variable_modalité doivent être privilégiés pour les variables illustratives. Ils permettent des analyses complémentaires.
Exemple : *sex_h pour les hommes et *sex_f pour les femmes permet de repérer la variable sex et les modalités h et f.

 

 

methodeLes analyses effectuées reposant sur le traitement informatique des données, leurs saisies se doivent d'être régulières, en respectant la case (Majuscule/Minuscule).
Exemple :
*sex_h, *sex_homme seront considérés comme deux modalité différente
*sex_h, *Sex_h, *sexe_h seront considérés comme trois variables différentes

 

Actions sur le document

2.3 Ouverture et indexation d'un corpus texte

 

Fichier → Ouvrir un corpus

Lors de l'ouverture d'un corpus, plusieurs traitements sont possibles, ils sont présentés dans ce chapitre.

2.3.1 Indexation

2.3.1.1 Onglet "Général"

2.3.1.2 Onglet "Nettoyage"

Actions sur le document

2.3.1 Indexation

 

Une fois le fichier texte choisi, une boîte de dialogue s'ouvre :

Menu d'ouverture d'un corpus

Actions sur le document

2.3.1.1 Onglet « Général »

Le premier onglet permet de définir les caractéristiques générales du corpus, ainsi que les différentes options de l'indexation.

  • Corpus : C'est le chemin d'accès du fichier que vous ouvrez (donné à l'étape précédente)

  • Encodage : c'est l'encodage que vous avez utilisé lors de la création du corpus, nous vous recommandons de travailler en UTF8.

 

methodePar défaut l'option UTF 8 sera proposée sur les ordinateurs sous Mac OS X et linux, et CP 1252 sur ceux sous Windows.

methodeFaite très attention à l'encodage des corpus lors de leur création. Il est préférable d'utiliser un éditeur de texte capable de gérer l'encodage comme la suite LibreOffice par exemple.


  • Langue : c'est la langue dans laquelle est écrit votre corpus

 

ErreurIramuteq ne peut pas analyser simultanément plusieurs langues dans un même corpus.

 

  • Répertoire en sortie : Après l'ouverture du corpus, Iramuteq crée un répertoire dans lequel seront stockés le corpus et les résultats. Par défaut il se situe au même emplacement que le corpus, et se nomme NomFichier_corpus_X. Son emplacement et son nom peuvent être changé ici.

 

  • Marqueur de texte : Indique au logiciel comment chaque texte est introduit. Pour des raisons de compatibilités avec les anciens corpus Alceste® il est possible d'utiliser 4 entiers à la place des 4 étoiles.

  • Utiliser le dictionnaire des expressions : Les dictionnaires des expressions contiennent des expressions ou des mots contenant des tirets (-) des apostrophes (') ou des espaces. Il permet de traiter ces expressions comme un tout, évitant ainsi de casser en deux formes les mots composés.

 

 

archive.pngLes dictionnaires des lexiques et des expressions de chacune des langues sont disponibles dans le répertoire .iramuteq/dictionnaires dans l'environnement de l'utilisateur.

 

exemple.png

Mot d'origine

Sans le dictionnaire d’expressions

Avec le dictionnaire d’expressions

vis-à-vis

vis à vis (trois occurrences et deux formes différentes)

vis_à_vis (une occurrence, une forme)


aujourd'hui

aujourd hui (2 formes, 2 occurrences)

aujourd_hui (une occurrence, une forme)

  • Construire des segments de textes : Permet le découpage de chaque texte en segment.

 

  • Mode de construction des segments de texte : Permet de choisir sur quelle unité se construiront les segments. Au choix :

  • caractères : les segments sont déterminés sur un critère de taille lié au nombre de caractères qu'ils contiennent.

  • occurrences :les segments sont déterminés sur un critère de taille lié au nombre d'occurrences qu'ils contiennent.

 

methodeles segments de texte sont construits à partir d'un critère de taille et de ponctuation. Iramuteq cherche le meilleur ratio taille/ponctuation (par ordre de priorité, les ".", "?" "!" en premier, puis en second ";" et les ":" en troisième la virgule et en dernier l'espace). L'objectif est d'avoir des segments de tailles homogènes en respectant le plus possible la structure du langage.

  • paragraphe : Le retour à la ligne est utilisé comme marqueur de fin de segment de texte. La ponctuation n'est plus du tout prise en compte.

 

  • Taille des segments de textes : définit le nombre d'unités (voir plus haut) contenus dans le segment de texte. Cette option n'agit pas sur le découpage en paragraphe.

 

ErreurLa modification du mode de construction de segments de texte implique la modification de la taille de ces derniers. L'analyse de segment composés de 40 caractères est rarement pertinente ;-)

 

Actions sur le document

2.3.1.2 Onglet Nettoyage

 

Le second onglet de cette boîte de dialogue concerne le nettoyage du corpus 

 

Ouverture_Preference_2Nettoyagepng

 

  • Passer le corpus en minuscule : Converti toutes les majuscules en minuscules, si désactivé, Iramuteq considérera « Chat » et « chat » comme deux formes distinctes.

  • Retirer les caractères en dehors de cette liste : Par défaut seul les caractères alphanumériques et accentués sont conservés, si vous ne voulez pas conserver un de ces caractère, il vous suffit de le retirer de la liste. Si vous voulez conserver d'autres caractères vous pouvez en ajouter à la fin de la liste.

 

Pour les langues n'utilisant pas les caractères alphanumériques il est impératif de modifier cette liste.

 

 

ErreurPour le bon fonctionnement du logiciel, vous ne devez pas forcer la conservation du signe double cote " 

  • Remplacer les apostrophes par des espaces : remplace les apostrophe par des espaces

  • Remplacer des tirets par des espaces : remplace les – par des espaces

  • conserver la ponctuation : conserve la ponctuation.

 

Erreursi vous conservez la ponctuation, vous devez vérifier l'absence de point-virgule dans votre corpus.

 

  • Pas d'espace entre deux formes :  si cette fonction est activée Iramute n'utilisera plus l'espace comme délimiteur de forme.

Actions sur le document

2.4 Traitements commun aux analyses (option de lemmatisation)

 

A chaque demande d'analyse sur un corpus, le dialogue suivant apparaît :

Menu préférence des analyses textuelles

 

 

 

 

 

 

  • Lemmatisation : Cette option choisit si le corpus doit être lemmatisé ou pas.

  • Clés d'analyse : Permet de choisir les clés d’analyses.

 

Actions sur le document

2.4.1 Lemmatisation


Les verbes sont ramener à l'infinitif, les noms au singulier et les adjectifs au masculin singulier. Iramuteq réalise la lemmatisation à partir de dictionnaires, sans désambiguïsation. Les dictionnaires pour les différentes langues sont disponibles dans le répertoire .iramuteq/dictionnaires.


 

exemple.pngmangé, mangeons, mangera → manger
professionnelles, professionnelle, professionnels →professionnel

Actions sur le document

2.4.2 Clés d'analyse

 

La plupart des analyses sur corpus vont différentier des formes dites « pleines » (ou formes actives) et des mots outils (ou « formes supplémentaires »). Seuls les formes « actives » participent à certaines analyses, comme les classifications par exemples. En cliquant sur « préférences », vous accédez à un menu permettant d'affecter les valeurs active/supplémentaire ou éliminé à chaque type grammatical.


  Interface permettant de modifier les clés d'analyses.

Ces données sont stockée dans le fichier key.cfg accessible dans le répertoire .iramuteq. Dans ce fichier la valeur 1 signifie que le type grammatical est actif, la valeur 2 signifie que le type est supplémentaire et la valeur 0 signifie que le type n'est pas pris en compte.

Voici la liste des types grammaticaux différentiés :

 

adj_sup: Adjectif supplémentaire ver: Verbe
art_ind: Article indéfini adj_num: Adjectif numérique
adj_pos: Adjectif possessif pro_rel: Pronom relatif
adv_sup: Adverbe supplémentaire adj_ind: Adjectif indéfini
pro_dem: Pronom démonstratif pro_ind: Pronom indéfini
art_def: Article défini pro_pos: Pronom possessif
con: Conjonction aux: Auxiliaire
pre: Préposition ver_sup: Verbe supplémentaire
ono: Onomatopée adj: Adjectif
adj_dem: Adjectif démonstratif adj_int: Adjectif interrogatif
nom_sup: Nom supplémentaire nom: Nom commun
adv: Adverbe num : Chiffre
pro_per: Pronom personnel nr : Formes non reconnues

 



 

Actions sur le document

2.5 Les différentes analyses textuelles

 

Une fois le corpus indexé (voir chapitre 2.3), dans le bandeau gauche d'Iramuteq s'affiche le raccourci NomFichier_corpus_X, un clic droit dessus vous donne accès aux analyses disponibles. Elles sont aussi accessibles dans la barre de tâche sous l'option « analyse de corpus ».




Actions sur le document

2.5.1 Statistiques textuelles


Cette analyse propose des statistiques simples sur les corpus texte : effectif de toutes les formes, effectif des formes actives et supplémentaires, liste des hapax.


Actions sur le document

2.5.1.1 Paramétrage de l'analyse statistiques textuelles

 

Il n'y a pas de paramétrage pour cette analyse.

Actions sur le document

2.5.1.2 Résultats de l'analyse statistiques textuelles

Dans cette partie nous vous présenterons les différents onglets de résultats.

 

 

Vous trouverez :

2.5.1.2.1 Onglet global

2.5.1.2.3 Onglet formes actives

2.5.1.2.3 Onglet formes supplémentaires

2.5.1.2.4 Onglet Total

2.5.1.2.5 Onglet hapax

Actions sur le document

2.5.1.2.1 Résultats de l'analyse statistiques textuelles - Onglet Global

Résultats statistiques textuelles, onglet global

Sur cet écran vous trouverez plusieurs informations :

  • Nombre de Textes : c'est le nombre de Textes contenus dans le corpus.

  • Nombre d’occurrences : c'est le nombre total de mots contenus dans le corpus. il diffère si le corpus est lemmatisé ou non.

  • Nombre de formes : C'est le nombre de formes présentes dans le corpus, il diffère si le corpus est lemmatisé ou non.

  • Moyenne d’occurrences par forme : (nombre d’occurrence) / (Nombre de formes).

  • Nombre d'Hapax : c'est le nombre de mots n'apparaissant qu'une seule fois dans tout le corpus.

  • Moyenne d’occurrences par Textes: (nombre d’occurrences) / (nombre de Textes)

  • Le graphique : présente en abscisse les logarithmes des rangs et en ordonnées les logarithmes des fréquences des formes.

Actions sur le document

2.5.1.2.2 Résultats de l'analyse statistiques textuelles - Onglet formes actives

Liste des formes actives (colonne forme) avec leurs effectifs (colonne nb) et leurs catégories grammaticale (colonne type).

 

Résultats statistiques textuelles, onglet formes actives

Actions sur le document

2.5.1.2.3 Résultats de l'analyse statistiques Textuelles - Onglet Formes supplémentaires

Liste des formes supplémentaires (colonne forme) avec leur effectif (colonne nb) et leur catégorie grammaticale (colonne type).


 

 

Résultats statistiques textuelles, onglet formes supplémentaires

Actions sur le document

2.5.1.2.4 Résultats de l'analyse statistiques Textuelles - Onglet Total

Liste des toutes les formes actives et supplémentaires (colonne forme) avec leurs effectifs (colonne nb) et leurs catégories grammaticale (colonne type).

 

 

Résultats statistiques textuelles, onglet total

Actions sur le document

2.5.1.2.5 Résultats de l'analyse statistiques Textuelles - Onglet Hapax


Liste des hapax (colonne forme) avec leurs effectifs (colonne nb) et leurs catégories grammaticale (colonne type).


 

Résultats statistiques textuelles, onglet hapax

Actions sur le document

2.5.1.2.6 Options Supplémentaires de l'analyse statistiques textuelles

Cette partie présente les options supplémentaires de l'analyse statistiques textuelles.

 

Vous y trouverez :

2.5.3.1 Sur chaque forme

2.5.3.2 Sur l'analyse

Actions sur le document

2.5.1.2.6.1 Options Supplémentaires de l'analyse statistiques textuelles - Sur chaque forme

 

Un menu d'options supplémentaires est accessible à partir d'un clic droit sur une des formes, il vous permet d'afficher pour chacune d'entre elles les formes associées, et le concordancier des segments de textes où figure la forme.

Actions sur le document

2.5.1.2.6.2 Options Supplémentaires de l'analyse statistiques textuelles - Sur l'analyse

 

 

Dans l'historique du panneau de gauche, un clic droit sur l'analyse ouvre un menu d'options disponibles :

  • Informations : Permet de récupérer les informations propres à l'analyse.
  • Exporter le dictionnaire : génère un fichier dictionary.csv (Tabulation comme séparateur) reprenant les occurrences. elles se présentent ainsi

 

  • FormeLemmeType grammaticaleffectif
    professeurs professeur nom 25

Ce dictionnaire est dans le format utilisé par Iramuteq, il peut donc être directement utililsé pour une analyse.

  • Exporter le dictionnaire des lemmes : génère un fichier lemme.csv (Tabulation comme séparateur) reprenant le lemme, puis les variantes et leurs effectifs :

 

  • LemmeForme1Effectif Forme1Forme2Effectif Forme2
    Primaire Primaire 6 Primaires 9
     

Actions sur le document

2.5.1.3 Fichiers en sortie

 

Comme pour chaque analyse, Iramuteq crée un nouveau répertoire dans le dossier créé lors de l'ouverture du corpus. Nommé « NomDuCorpus_Stat_x », il contient les fichiers suivants :

  •  

     

    Répertoire de sortie

    NomDuCorpus_Stat_x

    Fichiers en sortie :

    total.csv

    Toute les formes et leur effectif

    formes_supplémentaires.csv

    Les formes supplémentaires et leur effectif

    formes_actives.csv

    Les formes actives et leur effectif

    glob.txt

    Résultats de l'analyse

    hapax.csv

    Les hapax

    Zipf.png

    L'image du graphique présent dans « Global »

    Analyse.ira

    Fichier permettant à Iramuteq d'ouvrir l'analyse.

Actions sur le document

2.5.2 Spécificités et AFC

 

Produit une analyse factorielle des correspondances sur un tableau de contingence qui croise formes actives et les variables.


Actions sur le document

2.5.2.1 paramétrage de l'analyse spécificités et AFC

Choix des variables pour une AFC

 

 

Après le menu des préférences (voir chapitre 2.4), un menu de « choix des variables » s'affiche

Voici les différentes options proposées :

  • Sélection par : Vous permet de sélectionner toutes les modalités d'une variable (option « variable »), soit uniquement certaines modalités (option « modalité »).

  • Choix : vous devez sélectionner une variable

  • Indice : Deux possibilités de calcul sont possibles, le Chi2 ou la loi hypergéométrique.

  • Effectif minimum : Seule les formes dont le nombre d'occurrences dans le corpus complet est supérieur à ce seuil seront affichées.



ErreurLa sélection d'une variable est OBLIGATOIRE, si vous validez sans l'avoir sélectionnée, un message de Bug s'affichera. Cette variable doit avoir au minimum 2 modalités.



ErreurSi vous sélectionnez plusieurs variables, une seule sera prise en compte.

 

ErreurNe jamais sélectionner 2 modalités de variables pouvant être présente sur la même ligne (deux modalités n’appartenant pas à la même variable), l'analyse n'aurait plus aucun sens.

Actions sur le document

2.5.2.2 Présentations des résultats Spécificités et AFC

Les résultats qui vont suivre sont disponibles pour les formes/lemmes, et les catégories grammaticales.

  • Les onglets Formes et Types : Ils présentent la liste des formes et des catégories grammaticales, et leur score par modalité.

 

Résultats d'AFC, onglet forme

  • Les onglets Effectifs : effectif de chaque forme/lemme (ou catégorie grammaticale) dans les textes présentant la modalité de la variable.

Résultats d'AFC, onglet effectif forme

  • Les onglets Effectifs relatifs donne les effectifs relatifs en pour mille (‰)

Résultats d'AFC, onglet effectif forme

  • L'onglet AFC : Présente le graphique de l'AFC (facteurs ½)

Résultats d'AFC, onglet AFC

l’icône MenuAFC.png permet d'afficher les options de graphique, et de le réafficher. Deux sous-onglet existent, pour les formes, et pour les types (voir refaire les AFC)

Actions sur le document

2.5.2.2.1 Analyses complémentaires des Spécificités et AFC

 

Un menu d'options supplémentaires est accessible à partir d'un clic droit sur une des formes :

 

il vous permet d'afficher pour chacune d'entre elles les formes associées, le concordancier des segments de textes où figure la forme, ainsi qu'un graphique reprenant les scores spécifiques de la forme par modalité de variable.

 

 

SpecAFC_Option.png

Actions sur le document

2.5.2.3 Fichiers en sortie



  • Répertoire de sortie

    NomDuCorpus_Spec_x

    Fichiers en sortie

    Tabletypem.csv

    Effectif des types grammaticaux par modalité

    Tablespect.csv

    Score de spécificité des Types grammaticaux par modalité

    Tablespecf.csv

    Score de spécificité des formes par modalité

    Tableafcm.csv

    Effectif des formes par modalité

    liste_graph_afct.txt

    Fichier Iramuteq

    liste_graph_afcf.txt

    Fichier Iramuteq

    eff_relatif_type.csv

    Effectif relatif des types grammaticaux par modalité

    eff_relatif_forme.csv

    Effectif relatif des formes par modalité

    Analyse.ira

    Permet d'ouvrir l'analyse

    afct_row.png

    Plan factoriel des types grammaticaux

    afct_row.csv

    Détail des valeurs des lignes de l'AFC sur les types grammaticaux

    afct_facteur.csv

    Valeurs Propres, Pourcentages, Pourcentages cumulés de chaque facteur (pour les types grammaticaux)

    afct_col.png

    Plan factoriel des colonnes de l'AFC sur les types grammaticaux

    afct_col.csv

    Détail des valeurs des colonnes de l'AFC sur les types grammaticaux

    afcf_row.png

    Plan factoriel des formes

    afcf_row.csv

    Détail des valeurs des lignes de l'AFC sur les formes

    afcf_facteur.csv

    Valeurs Propres, Pourcentages, Pourcentages cumulés de chaque facteur (pour les formes)

    afcf_col.png

    Plan factoriel des colonnes de l'AFC sur les formes

    afcf_col.csv

    Détail des valeurs des colonnes de l'AFC sur les formes

     

Actions sur le document

2.5.3 Classification Méthode Reinert

ette analyse propose une classification hiérarchique descendante selon la méthode décrit par Reinert (1983, 1986, 1991). Cette classification est proposée selon trois modalités :

methode

- Classification simple sur texte :
Ici, les Textes resteront dans leur intégralité, la classification permettra ainsi de regrouper les Textes les plus proches.

- Classification simple sur segment de texte :
La classification portera sur les segment de textes (ST).

- Classification double sur RST :
La classification est menée sur deux tableaux dans lesquels les lignes ne sont plus des segments de texte mais des regroupements de segments de texte (RST). Le même traitement est ainsi fait deux fois, mais en changeant le nombre de formes actives par RST.

Voir le détail de la classification selon la méthode Reinert en annexe.


Actions sur le document

2.5.3.1 Paramétrages de l'analyse Classification Méthode Reinert

 

Après le menu des préférences (voir chapitre 2.4), un menu de « Options » s'affiche

Choix des options pour classification GNEPA

  • Classification : Permet de choisir le mode de classification (voir chapitre 2.5.3)

  • Taille rst1 et rst2 : pour la classification double sur RST permet de faire varier la taille des regroupements de segments de texte sur les deux passages, ces unités représentent le nombre de formes actives regroupées par ligne.

  • Nombre de classes terminales de la phase 1 : Détermine le nombre de classes de la première partie de la classification, par défaut elle est réglée sur 10, mais doit être ajustée à la taille et à l’hétérogénéité du corpus.

  • Nombre minimum de segments de texte par classe : détermine un seuil minimal de ST en dessous duquel les classes ne seront pas sélectionnées. Par défaut ce nombre est égal au nombre de segments de texte divisé par le nombre de classe terminale pour la classification simple, et au nombre de segments de texte divisés par 2 fois le nombre de classes terminales pour la classification double RST.

  • Fréquence minimum d'une forme analysée : cette option n'est pas disponible.

  • Nombre maximum de forme analysées : Par défaut, les 3000 formes actives les plus fréquentes et les 3000 formes supplémentaires les plus fréquentes seront retenues. Une forme doit avoir au minimum une fréquence de 3 pour être retenue. Si le corpus à moins de 3000 formes, toutes les formes avec une fréquence supérieure ou égale à 3 seront retenues.

 

methode Ce paramètre a une forte incidence sur la taille des tableaux analysés et donc sur la quantité de mémoire de l'ordinateur mobilisée. Si votre ordinateur n'a pas assez de mémoire pour analyser un corpus, essayez de baisser ce paramètre. Si votre ordinateur possède « suffisamment » de mémoire pour le corpus et que le corpus possède plus de 3000 formes de fréquence ≥ 3, n'hésitez pas à l'augmenter.

  • Méthode pour SVD :  Cette option permet de choisir l’algorithme utilisé dans les décompositions en valeur singulières.

  • Mode Patate : cette option supprime la deuxième phase de chaque partition (voir annexe). Elle permet une analyse un peu plus rapide mais un peu moins précise.

 

 

Actions sur le document

2.5.3.2 Résultats de la Classification Méthode Reinert

 

Les résultats directement disponibles présentent un résumé de la classification (onglet CHD) les profils des classes (onglet Profils), et une analyse factorielle des correspondances menées sur le tableau de contingence croisant formes/lemmes et classes (onglet AFC).

 

GNEPA_1Ensemble.png

Actions sur le document

2.5.3.2.1 Résultats de la Classification Méthode Reinert - CHD

Sur le premier onglet, vous pouvez distinguer 3 blocs distincts :

 

le premier constitué de texte reprend les statistiques textuelles du corpus. En plus des items déjà vus au chapitre 2.5.1, vous pourrez y trouver :

 

 

Résultats de la méthode GNEPA, première partie de l'onglet CHD

 

 

  • moyenne d'occurrences par segment

  • le nombre de segments classés sur la totalité du corpus.

 

La seconde partie est constituée du dendrogramme, il représente la partition, et une indication de la taille des classes (exprimée en pourcentage du corpus classé).

 

Résultats de la méthode GNEPA, seconde partie de l'onglet CHD (dendro)

 

 

Pour finir le troisième élément est le dendrogramme de la phase 1, les classes notées 0 représentent les classes non retenues

Résultats de la méthode GNEPA, troisième partie de l'onglet CHD (résultats phase 1)

 

À gauche de ces éléments, apparaît le boutonRésultats de la méthode GNEPA, bouton du menu option de l'onglet CHD

vous permettant de refaire le dendrogramme.

 

Actions sur le document

2.5.3.2.2 Résultats de la Classification Méthode Reinert - Les Profils

 

Pour chaque classe sont édités les profils, ces tables présentent les formes/lemmes caractéristiques des classes. Dans ces onglets, vous trouverez :

 

Résultats méthode GNEPA, onglet d'une classe

  • Le titre : il est composé du nom de la classe puis du nombre de ST de la classe, puis du nombre ST participant à la classification finale, puis du pourcentage des ST de la classe par rapport au nombre de segment de texte participant à la classification finale.

 

 

exemple.png Sur l'onglet activé, on lit : Classe 4 (67/280 – 23,93%) => sur les 280 segments de textes classés, 67 appartiennent à cette classe, ce qui représente 23,93 % des segments de texte classés.



  • Le contenu  : il est présenté sous forme de tableaux, utilisant un code de 3 couleurs les formes actives apparaissent en gris, les formes supplémentaires en bleu et les variables illustratives en rose. A l'intérieur de chacune de ces catégories les formes sont présentées dans l'ordre décroissant des Chi2 de liaison à la classe.

 

 

Résultats méthode GNEPA, détail d'une ligne de profil

  • num : le numéro de la ligne (permet à l'utilisateur de retrouver le classement initial).
  • Eff. s.t : Effectif des segments de texte, c'est le nombre de ST de cette classe contenant au moins une fois la forme
  • eff. Total : Effectif total des segments de texte, c'est le nombre de ST dans tout le corpus classé contenant au moins une fois la forme

  • pourcentage : c'est pourcentage de eff. ST / eff Total

  • Chi2 : chi2 exprimant la force du lien entre la forme et la classe (voir annexe)

  • Type : catégorie grammaticale de la forme

  • Forme : forme ou lemme concerné

  • : Seuil de significativité associé au Chi2

methode
-Pour rechercher une forme dans le profil ouvert, vous pouvez appuyer sur la touche CTRL+F
Pour rechercher une forme dans tous les profils, vous pouvez appuyer sur la touche CTRL+Shift+F

Actions sur le document

2.5.3.2.3 Résultats de la Classification Méthode Reinert - L'AFC

Dans cet onglet vous trouverez l'AFC déduite de la classification,

  • L'onglet AFC : Présente le graphique de l'AFC, l’icône permet d'afficher les options de graphique, et de le réafficher.

  • L'onglet Facteurs : présente les valeurs propres, pourcentages et pourcentages cumulés de chaque facteur.

  • L'onglet graph 3D : produit un graphe des distances minimum sur les formes en 3 dimensions.

 

 

Actions sur le document

2.5.3.2.4 Options supplémentaires de la Classification Méthode Reinert

 

Cette partie présentes les différentes options supplémentaires de la classification Méthode Reinert.

Résultats méthode GNEPA, analyse de similitude d'un mot dans sa classe.      Résultats méthode GNEPA, histogramme du chi2 d'une forme par classe, avec le dendrogramme de la CHD

Vous y trouverez :

Les options disponibles pour chaque classes

Les options disponibles pour la classification

Actions sur le document

2.5.3.2.4.1 Options supplémentaires de la Classification Méthode Reinert - pour chaque classes

 

Pour aider votre étude des profils, Iramuteq vous propose diverses options, vous y avez accès dans chaque classe en effectuant un clic droit sur la ligne vous intéressant. Le menu suivant apparaît :

Résultats méthode GNEPA, menu optionnel d'une classe

  • Les formes associées : Donne les effectifs dans la classe des formes regroupées dans un lemme

  • Chi2 par classe : crée un graphique qui présente le Chi2 d'association de la forme à chacune des classes. Plusieurs formes peuvent être sélectionnées en même temps (maintenir la touche Ctrl enfoncée)


  • Résultats méthode GNEPA, histogramme des chi2 d'une forme par classe

    • Chi2 par classe + dendro : reprend le même graphique en barre, en le projetant sur le dendrogramme.

    Résultats méthode GNEPA, histogramme du chi2 d'une forme par classe, avec le dendrogramme de la CHD

    • Chi2 Modalités de la variable : crée un graphique qui représente le chi2 d'association des modalités de la variable sélectionnée à chacune des classes. Nécessite un formatage du type variable_modalité.


GNEPA_224Profils_Chi2ModaliteVariable.png

  • Graphe du mot : crée un graphe de similitude représentant les liens de la forme sélectionnée avec les autres formes de la classe (voir #Ref pour plus de détails).

Résultats méthode GNEPA, analyse de similitude d'un mot dans sa classe.

  • Concordancier : propose le concordancier de la (ou des) forme(s) / lemmes sélectionnée(s). Ce concordancier est disponible pour les segments de texte de la classe, ceux classées ou tous ceux du corpus.

GNEPA_225Profils_Concordancier_1Classe.png

  • Outils du CNRTL : interroge la base de données du Centre Nationale de Ressources Textuelles et Lexicales (http://www.cnrtl.fr/) à partir de la forme / du lemme sélectionnée (nécessite d'être connecté à Internet, ne fonctionne que pour le français). Permet d'obtenir une définition (Lexicographie), les synonymes (Synonymie), les Antonymes (Antonymie), l'étymologie (Etymologie), la morphologie (Morphologie) ou un graphe de proxémie de la forme. Les résultats s'affichent dans le navigateur internet par défaut du système. Cette option n'a de sens que sur un corpus en français.

  • Graphe de classe : indépendant de la ligne sélectionnée. Il s'agit d'une analyse de similitude menée sur un tableau absence/présence (0/1) qui croise les unités choisies en ligne (TEXTE ou ST) et les formes actives de la classe en colonne. La matrice de similitude est construite sur les colonnes (les formes actives de la classe). Voir chapitre 2.5.4 pour plus de détails.

  • Segments répétés : indépendant de la ligne sélectionnée. Effectifs et tailles des segments répétés de la classe. Préférez les profils des segments répétés.

  • Segments de texte caractéristiques : indépendant de la ligne sélectionnée. Liste les ST caractéristiques de la classe. Deux scores sont proposés :

    • absolu : les ST sont classées en fonction de la somme des chi2 de liaison à la classe des formes actives qu'ils contiennent.

    • Relatif : les ST sont classées en fonction de la moyenne des chi2 de liaison à la classe des formes actives qu'ils contiennent.

  • Exporter : exporte tous les ST présents dans la classe, ils peuvent ainsi constituer un nouveau corpus.


Actions sur le document

2.5.3.2.4.2 Options supplémentaires de la Classification Méthode Reinert - pour chaque classes - pour la classification

 

En plus de ces outils, vous trouverez d'autres options en effectuant un clic droit sur l'analyse, dans le menu « navigateur » à gauche d'Iramuteq.

Options supplémentaires GNEPA, le menu

  • Informations : reprend les caractéristiques choisies pour la classification (voir chapitre 2.5.3.1)

  • Ouvrir -> Anti-profils, sur la même présentation que les profils seront affichés les anti-profils, ce sont les formes significativement absentes de la classe.

  • Profils des segments répétés : Calcule les profils des segments répétés.

Méthode GNEPA, option supplémentaire : profil segments répétés

  • Profil des types : Calcule les profils des types grammaticaux.

  • Exporter le corpus : cette fonction permet d'exporter le corpus découpé en segments de texte en ajoutant en variable étoilée la classe du ST. Les segments de texte écartés de la classification apparaîtront avec la variable *classe_0.

  • Corpus en couleur : Cette fonction crée un fichier .html retranscrivant le corpus entier, où chaque segment de texte apparaît de la couleur de sa classe. Les ST non classés sont écrits en noir. Le fichier créé est accessible dans le répertoire de l'analyse.

OptionGnepa_CorpusCouleur.png

  • Outil de navigation : Matrice reprenant toutes les formes avec leur Chi2 de liaison à chaque classe.

Méthode GNEPA, option supplémentaire : outil de navigation

  • Statistiques par classe : cette fonction crée un fichier .csv dans le répertoire de l'analyse (stat_par_classe.csv) qui contient pour chacune des classes : le nombre total d'occurrences, le nombre de formes différentes,, le nombre d'hapax, le nombre de segments de texte, et le ratio nbre d'hapax/ nbre de formes.

  • Rapport : cette fonction crée un fichier RAPPORT.TXT, qui contient les statistiques générales de la classification et les profils.

  • Supprimer de l'historique : efface cette analyse de l'historique d'Iramuteq.

Actions sur le document

2.5.3.3 Fichiers en sortie pour la classification

  • Répertoire de sortie

    NomDuCorpus_Alceste_x

    Fichiers en sortie :

    AFC2DCL.png

    graphique AFC : Classes - Coordonnées - facteur 1 / 2

    AFC2DEL.png

    graphique AFC : Variables illustratives - Coordonnées - facteur 1 / 2

    AFC2DL.png

    graphique AFC : Variables actives - coordonnées - facteurs 1 / 2

    AFC2DSL.png

    graphique AFC : variables supplémentaires - coordonnées - facteurs 1 / 2

    afc_col.csv

    Résultats de l'AFC ; Coordonnées, corrélation, MASS, contribution des classes : voir le manuel de la librairie ca de R pour plus de détails.

    afc_facteur.csv

    Résultats de l'AFC ; Valeurs propres, Pourcentage d'inertie extraite et Pourcentage cumulé des facteurs.

    afc_row.csv

    Résultats de l'AFC ; Coordonnées, corrélation, MASS, contribution des formes : voir le manuel de la librairie ca de R pour plus de détails.

    Analyse.ira

    Fichier Analyse : permet d'ouvrir une analyse.

    antiprof_segments.csv *

    Antiprofils des segments répétés

    antiprof_type.csv *

    Antiprofils des types grammaticaux

    Antiprofile.csv

    Antiprofils des formes

    Arbre_1.png

    Dendrogramme de la première CHD

    Chistable.csv

    Chi2 d'association de chaque forme aux classes

    classe_mod.csv

    Tableau de contingence formes actives/classes

    corpus_couleur.html *

    Corpus respectant les couleurs des classes d'appartenance.

    Dendro1.png

    Dendrogramme de la classification

    Export_corpus.txt *

    Fichier créé par l'option « exporter le corpus »

    Info.txt

    Résumé de la classification

    liste_graph_afc.txt

    Fichier Iramuteq

    liste_graph_chd.txt

    Fichier Iramuteq

    ListeUCE1.csv

    Fichier Iramuteq

    prof_segments.csv *

    Profils des segments répétés

    profil_type.csv *

    Profils des types grammaticaux

    Profiles.csv

    Profils des classes

    Ptable.csv

    Seuil de significativité des chi2 d'association de chaque forme aux classes.

    RAPPORT.txt *

    Fichier créé par l'option « Rapport »

    SbyClasseOut.csv

    Fichier Iramuteq

    segment_classe.csv *

    Tableau de contingence des segments répétés/classes

    stat_par_classe.csv *

    Fichier créé par l'option « Stat par classe »

    Tablet.csv

    Tableau de contingence des variables illustratives/classes

    Tablesup.csv

    Tableau de contingence des formes supplémentaires/classes

    TableUC1.csv

    Matrice utilisée pour l'analyse au format MatrixMarket

    type_cl.csv *

    Tableau de contingence des types grammaticaux/classes

    Uce.csv

    Positionnement des segments de textes par classes

Actions sur le document

2.5.4 Analyses de similitude

 

Cette analyse produit des graphes à partir de la librairie « igraph » de R. Le tableau en entrée est un tableau de présence / absence. La matrice de similitude est calculée à partir de l'un des indices proposés. La plupart des indices proposés sont issus de la librairie « proxy » de R. Voir le détail des indices de similitude en annexe.

Actions sur le document

2.5.4.1 paramétrage de l'Analyse de Similitude sur textes


Après le menu des préférences, un menu de paramétrage s'affiche.


Boite de dialogue pour les analyses de similitudes

Ce menu se compose de trois parties :

  • La liste des formes : Dans le cadre de gauche, sont présentées les formes et leurs fréquences, par défaut elles sont toutes sélectionnées.

  • Les paramètres du graphe : C'est l'onglet actif lors de l'ouverture de ce menu. Il permet de choisir les caractéristiques du graphe. Dans l 'ordre, nous trouvons :

    • Indice : permet de choisir le type d'indice de similitude utilisé (cooccurrence par défaut)

    • Layout : mode de présentation des données. Les options sont aléatoires (random), cercle, Fruchterman Reingold, Kamada-Kawaï, graphopt. Voir la documentation de la librairie igraph pour plus de détails

      SIMI_Exemples.png

  • Type de graphique : choix de la méthode de présentation du graphe.

  • Statique : produit une image png ou svg

      • Statique : produit une image png ou svg

      • Dynamique : utilise l'interface tk d'igraph. Cette interface permet d'organiser les graphes et de conserver les coordonnées pour réutilisation dans un graphe statique.

      • 3D : produit un graphe en trois dimensions qui s'ouvre dans une fenêtre rgl.

 

  • Format de l'image : permet d'enregistrer l'image en .png ou .svg

  • Arbre maximum : calcul de l'arbre maximum

  • Graphe à seuil : permet d'éliminer les arêtes pour lesquelles la valeur de l'indice est inférieure ou égale au seuil choisi.

  • Texte sur les sommets  : affiche du texte sur les sommets des graphes

  • Indice sur les arêtes  : affiche le texte sur les arêtes du graphe

  • Taille du texte : Indique la taille du texte sur le graphe

  • communauté : Permet un calcul de communauté (voir la documentation de la librairie igraph pour plus de détails).

  • halo : représente les communautés par un halo de couleur.

  • sélectionner une variable : ouvre après validation un nouveau menu permettant de choisir une variable (ou plusieurs modalités). Les formes caractéristiques des modalités seront mises en couleur.

Option sélection de variable : pour les détails de cette fenêtre

 

  • Les paramètres graphiques : c'est le second onglet, il permet de modifier les caractéristiques visuelles du graphe.Boite de dialogue pour les analyses de similitudes (paramètre du graphique)

    • Taille du graphique : taille de l'image produite (en pixels)

    • Taille des sommets proportionnelle à l'effectif : permet d'assigner une taille des sommets proportionnelle à l'effectif de la forme (eff) ou à son chi2 (chi2).

    • Taille du texte des sommets proportionnelle à l'effectif : permet d'assigner une taille du texte des sommets proportionnelle à l'effectif (eff) de la forme ou à son chi2.

    • Largeur des arêtes proportionnelle à l'indice : permet d'assigner une largeur des arêtes proportionnelle à la valeur de l'indice.

    • Gradiant de gris sur les textes en fonction de l'effectif (du chi2) permet d'ajuster la couleur du texte des sommets en fonction de l'effectif de la forme.

    • Couleur des sommets / Couleurs des arêtes : affecte les couleurs aux sommets et/ou arêtes

    • Taille des sommets : assigne une taille unique aux sommets du graphe

    • Transparence des sphères : règle la transparence des sphères pour les graphes en 3D

    • Faire un film : permet de faire un film représentant un tour complet d'un graphe en 3D


Actions sur le document

2.5.4.2 Résultats de l'analyse de similitude

Les résultats s'ouvrent dans un nouvel onglet, sur la gauche sont présentes deux icônes :

icône permettant d’accéder au menu du graphique Cette icône permet d'ouvrir à nouveau le menu paramètre, en conservant les derniers choix.



SIMI_iconeExport.png Cette icône exporte le dernier graphe au format graphml. Ce graphique peut alors être ouvert dans des logiciels comme Gephi ou visone.

Actions sur le document

2.5.4.3 Fichiers en sortie

 

  • Répertoire de sortie

    NomDuCorpus_simitxt_x

    Fichiers en sortie :

    Actives.csv

    Liste des formes actives

    Analyse.ira

    Fichier Analyse : permet d'ouvrir une analyse.

    graph_simi_X.png

    Graphique au format .png (à chaque réédition du graphe, un nouveau fichier se crée)

    liste_graph.txt

    Fichier Iramuteq

    listeuce1.csv

    Fichier Iramuteq

    mat01.csv

    Matrice utilisée pour l'analyse au format MarketMatrix

    RData.RData

    Fichier R

    Selected.csv

    Liste des identifiants des formes sélectionnées (se recharge à chaque réédition)

Actions sur le document

2.5.5 Nuage de mots

Iramuteq vous permet à partir de vos corpus de générer des nuages de mots

ministres_nuage.png

Vous trouverez dans cette partie :

2.5.5.1 Paramétrage de l'analyse Nuages de Mots

2.5.5.2 Présentation des résultats de l'analyse Nuages de mots

2.5.5.3 Fichiers en sortie

Actions sur le document

2.5.5.1 Paramétrage de l'analyse Nuage de mots

 

Après le menu des préférences (voir chapitre 2.4), un menu de paramétrage s'affiche.

Menu d'option du nuage de mot

  • Hauteur/Largeur : fixe les dimensions du nuage

  • Format de l'image : permet d'enregistrer l'image en .png ou .svg

  • Nombre maximum de formes : Nombre maximum de formes présentes dans le nuage

  • Formes retenues : permet de choisir entre Formes actives et/ou supplémentaires

  • Taille du texte : fixe les limites supérieures et inférieures de la taille du texte

  • Couleur du texte/fond : définit les couleurs

Après validation, la liste des formes et leur fréquence sont affichées, par défaut elles sont toutes sélectionnées, l'utilisateur peut en exclure, ou choisir sa liste (pour sélectionner plusieurs formes, maintenir la touche « Ctrl » lors de la sélection)




Actions sur le document

2.5.5.2 Résultats de l'analyse Nuage de mots

 

Les résultats s'ouvrent dans un nouvel onglet.

Graphique d'un nuage de mot

Actions sur le document

2.5.5.3 Fichiers en sortie

 

  • Répertoire de sortie

    NomDuCorpus_worldcloud_x

    Fichiers en sortie :

    Actives_eff.csv

    Liste des formes actives avec leur fréquence

    Analyse.ira

    Fichier Analyse : permet d'ouvrir une analyse.

    Nuage_1.png

    Image de sortie du nuage

    Selected.csv

    Liste des identifiants des formes sélectionnées

Actions sur le document

2.6 Réédition des graphiques

 

Pour les analyses portant sur des graphiques, Iramuteq vous permet de rééditer ces derniers,

 Menu de réédition des dendrogrammes

 Menu de réédition des AFC

Actions sur le document

2.6.1 Menu de réédition des dendrogrammes

 

Cette boîte de dialogue est accessible par l'icône à gauche des dendrogrammes

GNEPA_3Option_graphique.png

  • Hauteur / largeur : Taille de l'image en pixels

  • type de dendrogramme : permet de choisir le type de dendrogramme (phylogram,cladogram, fan, unrooted, radial)

GNEPA_1CHD_ExempleDendro.png

  • Ajouter la taille des classes : permet de faire apparaître sur le dendrogramme la taille des classes (en barres ou camemberts)

Actions sur le document

2.6.2 Menu de réédition des AFC

 

Cette boîte de dialogue est accessible par l'icône à gauche des AFC

 

SpecAFC_OptionGraphique.png

  • Type de graphique : permet de choisir les graphiques en 2D ou 3D

  • Format de l'image : permet de choisir le format d'enregistrement de l'image

  • Représentation : choisit le mode de représentation par coordonnées , ou corrélations

  • Variable : choisit quelles formes analyser, Actives, supplémentaires, classes (ici le titres des colonnes)

  • Largeur/hauteur : définit les dimensions du graphique (en px)

  • Taille du texte : définit la taille du texte

  • Prendre les x premiers points : Prends les x premiers points qui ont les chi2 les plus forts dans l'ensemble de la classification.

  • Prendre les x premiers points par classe : Prend les x premiers point qui ont les chi2 les plus forts par classe

  • Limiter le nombre de points par le chi2 de liaison par classe : seuil minimal de liaison à la classe pour apparaître

  • Élimine les recouvrements : cette option évite le recouvrement du label des points, elle produit un biais, mais permet une meilleure lisibilité.

  • Taille du texte proportionnel à l'effectif de la forme : règle la taille du texte en fonction de l'effectif de la forme dans le corpus.

  • Taille du texte proportionnel au chi2 d'association de la forme : règle la taille du texte en fonction du chi2 de liaison à la classe

  • facteurX /facteurY/facteurZ : respectivement facteur en abscisse, facteur en ordonnée, facteur en cote

  • Transparence des sphères : permet d'ajuster la transparence des sphères dans les graphiques en 3D

  • Faire un film : disponible uniquement pour les graphiques en 3D, produit un .gif animé qui représente une rotation de 360° du graphique.

Actions sur le document

Actions sur le document

Navigation
Liens

Le projet R

Laboratoire LERASS

Groupe REPERE

TXM

Image de la semaine

Les graphes produits avec iramuteq peuvent être exporter pour Gephi (http://gephi.org)

graphe exporté dans gephi (http://gephi.org)