Vous êtes ici : Accueil / Documentation / html / 2.3.1.1 Onglet « Général »

2.3.1.1 Onglet « Général »

Le premier onglet permet de définir les caractéristiques générales du corpus, ainsi que les différentes options de l'indexation.

  • Corpus : C'est le chemin d'accès du fichier que vous ouvrez (donné à l'étape précédente)

  • Encodage : c'est l'encodage que vous avez utilisé lors de la création du corpus, nous vous recommandons de travailler en UTF8.

 

methodePar défaut l'option UTF 8 sera proposée sur les ordinateurs sous Mac OS X et linux, et CP 1252 sur ceux sous Windows.

methodeFaite très attention à l'encodage des corpus lors de leur création. Il est préférable d'utiliser un éditeur de texte capable de gérer l'encodage comme la suite LibreOffice par exemple.


  • Langue : c'est la langue dans laquelle est écrit votre corpus

 

ErreurIramuteq ne peut pas analyser simultanément plusieurs langues dans un même corpus.

 

  • Répertoire en sortie : Après l'ouverture du corpus, Iramuteq crée un répertoire dans lequel seront stockés le corpus et les résultats. Par défaut il se situe au même emplacement que le corpus, et se nomme NomFichier_corpus_X. Son emplacement et son nom peuvent être changé ici.

 

  • Marqueur de texte : Indique au logiciel comment chaque texte est introduit. Pour des raisons de compatibilités avec les anciens corpus Alceste® il est possible d'utiliser 4 entiers à la place des 4 étoiles.

  • Utiliser le dictionnaire des expressions : Les dictionnaires des expressions contiennent des expressions ou des mots contenant des tirets (-) des apostrophes (') ou des espaces. Il permet de traiter ces expressions comme un tout, évitant ainsi de casser en deux formes les mots composés.

 

 

archive.pngLes dictionnaires des lexiques et des expressions de chacune des langues sont disponibles dans le répertoire .iramuteq/dictionnaires dans l'environnement de l'utilisateur.

 

exemple.png

Mot d'origine

Sans le dictionnaire d’expressions

Avec le dictionnaire d’expressions

vis-à-vis

vis à vis (trois occurrences et deux formes différentes)

vis_à_vis (une occurrence, une forme)


aujourd'hui

aujourd hui (2 formes, 2 occurrences)

aujourd_hui (une occurrence, une forme)

  • Construire des segments de textes : Permet le découpage de chaque texte en segment.

 

  • Mode de construction des segments de texte : Permet de choisir sur quelle unité se construiront les segments. Au choix :

  • caractères : les segments sont déterminés sur un critère de taille lié au nombre de caractères qu'ils contiennent.

  • occurrences :les segments sont déterminés sur un critère de taille lié au nombre d'occurrences qu'ils contiennent.

 

methodeles segments de texte sont construits à partir d'un critère de taille et de ponctuation. Iramuteq cherche le meilleur ratio taille/ponctuation (par ordre de priorité, les ".", "?" "!" en premier, puis en second ";" et les ":" en troisième la virgule et en dernier l'espace). L'objectif est d'avoir des segments de tailles homogènes en respectant le plus possible la structure du langage.

  • paragraphe : Le retour à la ligne est utilisé comme marqueur de fin de segment de texte. La ponctuation n'est plus du tout prise en compte.

 

  • Taille des segments de textes : définit le nombre d'unités (voir plus haut) contenus dans le segment de texte. Cette option n'agit pas sur le découpage en paragraphe.

 

ErreurLa modification du mode de construction de segments de texte implique la modification de la taille de ces derniers. L'analyse de segment composés de 40 caractères est rarement pertinente ;-)

 

Actions sur le document

Navigation
Liens

Le projet R

Laboratoire LERASS

Groupe REPERE

TXM

Image de la semaine

Les graphes produits avec iramuteq peuvent être exporter pour Gephi (http://gephi.org)

graphe exporté dans gephi (http://gephi.org)