Vous êtes ici : Accueil / Documentation / Formatage des corpus texte

Formatage des corpus texte

 

 

Les fichiers d'entrée doivent être au format texte brut (.txt) et respecter les règles de formatage suivantes :

dans ce formatage, l'unité de base est appelée « texte ». Un texte peu représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir un ou plusieurs texte (mais au minimum un). Les textes sont introduits par quatre étoiles (****) suivies d'une série de variables étoilées séparées par un espace. Il est possible de placer des variables étoilées à l'intérieur des textes en les introduisant en début de ligne par un tiret et une étoile (-*). On parle alors de thématiques. La ligne ne doit contenir que cette variable.

Exemple d'un corpus sans thématique:

**** *var1_mod1 *var2_mod3
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte

**** *var1_mod2 *var2_mod1
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte

Exemple d'un corpus avec thématique :

**** *var1_mod1 *var2_mod3

-*thematique_1

texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte

-*thematique_2

texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
texte texte texte texte texte texte texte texte texte texte texte texte texte texte

**** *var1_mod2 *var2_mod1

-*thematique_1

texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte

-*thematique_2

texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
texte texte texte texte texte texte texte texte texte texte texte

Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9 et des tirets bas (_).

*age 18 ans n'est pas un bon codage

*age_18 est un bon codage

*entretien_d'Emilie n'est pas un bon codage

*ent_emilie est un bon codage

Actions sur le document