first import
[iramuteq] / documentation / test-wiki
1 == Format des données en entrée ==
2
3 Les fichiers d'entrée doivent être au format texte brut (.txt) et respecter les règles de formatage des corpus ALCESTE.
4
5 Dans ce formatage, l'unité de base est appelée « unité de contexte initiale » (uci). Une uci peu représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir une ou plusieurs uci (mais au minimum une).
6
7
8 Les uci sont introduites par quatre étoiles (****) suivies d'une série de variables étoilées séparées par un espace. Il est possible de placer des variables étoilées à l'intérieur des corpus en les introduisant en début de ligne par un tiret et une étoile (-*). La ligne ne doit contenir que cette variable.
9
10 Exemple d'un corpus sans thématique:
11 <pre style="CSS text">
12 <nowiki>**** *var_1 *var_2</nowiki>
13 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
14 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
15 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
16 texte texte texte texte texte texte texte texte texte texte texte 
17 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
18 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
19 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
20 texte texte texte texte texte texte texte texte texte texte texte
21 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
22 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
23 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
24 texte texte texte texte texte texte texte texte texte texte texte
25 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
26 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
27 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
28 texte texte texte texte texte texte texte texte texte texte texte
29
30 <nowiki>**** *var_2 *var_3</nowiki>
31 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
32 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
33 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
34 texte texte texte texte texte texte texte texte texte texte texte 
35 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
36 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
37 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
38 texte texte texte texte texte texte texte texte texte texte texte
39 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
40 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
41 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
42 texte texte texte texte texte texte texte texte texte texte texte
43 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
44 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
45 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
46 texte texte texte texte texte texte texte texte texte texte texte</pre>
47
48
49 Exemple d'un corpus avec thématique :
50
51 <pre style="CSS text">
52 <nowiki>**** *var_1 *var_2</nowiki>
53
54 -*thematique1
55
56 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
57 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
58 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
59 texte texte texte texte texte texte texte texte texte texte texte
60
61 -*thematique2
62
63 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
64 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
65 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte 
66 texte texte texte texte texte texte texte texte texte texte texte texte texte texte
67
68 <nowiki>**** *var_2 *var_3</nowiki>
69
70 -*thematique1
71
72 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
73 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
74 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
75 texte texte texte texte texte texte texte texte texte texte texte
76
77 -*thematique2
78
79 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
80 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
81 texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
82 texte texte texte texte texte texte texte texte texte texte texte</pre>
83
84 {{note|Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9 et des tirets bas (_).}}
85
86
87 <pre><nowiki>*age 18 ans n'est pas un bon codage</nowiki>
88
89 <nowiki>*age_18 est un bon codage</nowiki>
90
91 <nowiki>*entretien_d'Emilie n'est pas un bon codage</nowiki>
92
93 <nowiki>*ent_emilie est un bon codage</nowiki></pre>