2.3.1.1 Onglet « Général »

Le premier onglet permet de définir les caractéristiques générales du corpus, ainsi que les différentes options de l'indexation.

Corpus : C'est le chemin d'accès du fichier que vous ouvrez (donné à l'étape précédente)

Encodage : c'est l'encodage que vous avez utilisé lors de la création du corpus, nous vous recommandons de travailler en UTF8.

methode Par défaut l'option UTF 8 sera proposée sur les ordinateurs sous Mac OS X et linux, et CP 1252 sur ceux sous Windows.

methode Faite très attention à l'encodage des corpus lors de leur création. Il est préférable d'utiliser un éditeur de texte capable de gérer l'encodage comme la suite LibreOffice par exemple.

Langue : c'est la langue dans laquelle est écrit votre corpus

Erreur Iramuteq ne peut pas analyser simultanément plusieurs langues dans un même corpus.

Répertoire en sortie : Après l'ouverture du corpus, Iramuteq crée un répertoire dans lequel seront stockés le corpus et les résultats. Par défaut il se situe au même emplacement que le corpus, et se nomme NomFichier_corpus_X. Son emplacement et son nom peuvent être changé ici.

Marqueur de texte : Indique au logiciel comment chaque texte est introduit. Pour des raisons de compatibilités avec les anciens corpus Alceste® il est possible d'utiliser 4 entiers à la place des 4 étoiles.
Utiliser le dictionnaire des expressions : Les dictionnaires des expressions contiennent des expressions ou des mots contenant des tirets (-) des apostrophes (') ou des espaces. Il permet de traiter ces expressions comme un tout, évitant ainsi de casser en deux formes les mots composés.

Les dictionnaires des lexiques et des expressions de chacune des langues sont disponibles dans le répertoire .iramuteq/dictionnaires dans l'environnement de l'utilisateur.

Mot d'origine	Sans le dictionnaire d’expressions	Avec le dictionnaire d’expressions
vis-à-vis	vis à vis (trois occurrences et deux formes différentes)	vis_à_vis (une occurrence, une forme)
aujourd'hui	aujourd hui (2 formes, 2 occurrences)	aujourd_hui (une occurrence, une forme)

Mot d'origine

Sans le dictionnaire d’expressions

Avec le dictionnaire d’expressions

vis-à-vis

vis à vis (trois occurrences et deux formes différentes)

vis_à_vis (une occurrence, une forme)

aujourd'hui

aujourd hui (2 formes, 2 occurrences)

aujourd_hui (une occurrence, une forme)

Construire des segments de textes : Permet le découpage de chaque texte en segment.

Mode de construction des segments de texte : Permet de choisir sur quelle unité se construiront les segments. Au choix :

caractères : les segments sont déterminés sur un critère de taille lié au nombre de caractères qu'ils contiennent.
occurrences :les segments sont déterminés sur un critère de taille lié au nombre d'occurrences qu'ils contiennent.

methode les segments de texte sont construits à partir d'un critère de taille et de ponctuation. Iramuteq cherche le meilleur ratio taille/ponctuation (par ordre de priorité, les ".", "?" "!" en premier, puis en second ";" et les ":" en troisième la virgule et en dernier l'espace). L'objectif est d'avoir des segments de tailles homogènes en respectant le plus possible la structure du langage.

paragraphe : Le retour à la ligne est utilisé comme marqueur de fin de segment de texte. La ponctuation n'est plus du tout prise en compte.

Taille des segments de textes : définit le nombre d'unités (voir plus haut) contenus dans le segment de texte. Cette option n'agit pas sur le découpage en paragraphe.

Erreur La modification du mode de construction de segments de texte implique la modification de la taille de ces derniers. L'analyse de segment composés de 40 caractères est rarement pertinente ;-)

Actions sur le document

Imprimer