sparse jaccard
[iramuteq] / documentation / documentation.txt
1 <center>'''Documentation Iramuteq'''</center>
2
3
4 <center>version 0.1</center>
5
6
7 <center>Pierre Ratinaud</center>
8
9
10 == '''Table des matières''' ==
11 1 Présentation d'iramuteq3
12
13 1.1 R3
14
15 1.2 Python3
16
17 1.3 Lexique 33
18
19 2 Analyses de textes3
20
21 2.1 Format des données en entrée3
22
23 2.2 Statistiques textuelles4
24
25 2.3 Comme Lexico4
26
27 2.4 AFC sur UCI5
28
29 2.5 Analyses ALCESTE5
30
31 2.6 Classification par matrice des distances5
32
33 3 Analyses de tableaux de données5
34
35 3.1 Format des données en entrée5
36
37 3.2 Fréquences5
38
39 3.3 Chi 25
40
41 3.4 T de Student5
42
43 3.5 Classification5
44
45 3.5.1 Par matrice des distances5
46
47 3.5.2 Méthode ALCESTE5
48
49 3.6 AFCM5
50
51 3.7 Graphes5
52
53 4 Bibliographie5
54
55 5 Annexes5= Présentation d'iramuteq =
56 Iramuteq est un logiciel d'analyse de textes et de tableaux de données. Il s'appuie sur le logiciel de statistique R ([http://www.r-project.org/ http://www.r-project.org]), sur le langage python ([http://www.python.org/ http://www.python.org]) et sur la base de données lexicales Lexique ([http://www.lexique.org/ http://www.lexique.org]).
57
58
59 <center>ATTENTION</center>
60
61
62 Iramuteq est en cours de développement. Regardez les informations disponibles sur la page [http://repere.no-ip.org/logiciel/iramuteq http://repere.no-ip.org/logiciel/iramuteq] pour connaître la fiabilité des différentes analyses.
63
64 == R ==
65 [http://www.r-project.org/ http://www.r-project.org]
66
67
68 == Python ==
69 [http://www.python.org/ http://www.python.org]
70
71
72 == Lexique 3 ==
73 [http://www.lexique.org/ http://www.lexique.org]
74
75
76 = Analyses de textes =
77 == Format des données en entrée ==
78 Les fichiers d'entrée doivent être au format texte brut (.txt) et respecter les règles de formatage des corpus ALCESTE.
79
80 Dans ce formatage, l'unité de base est appelée «&nbsp;unité de contexte initiale&nbsp;» (uci). Une uci peu représenter un entretien, un article, un livre ou tout autre type de documents. Un corpus peut contenir une ou plusieurs uci (mais au minimum une).
81
82
83 [[Image:]] Les noms des fichiers ne doivent pas contenir d'espace ou de caractères spéciaux. 
84
85 'Mon corpus.txt' ne fonctionnera pas alors que 'moncorpus.txt' ou 'mon_corpus.txt' ne posent pas de problèmes.
86
87
88 Les uci sont introduites par quatre étoiles (****) suivies d'une série de variables étoilées séparées par un espace. Il est possible de placer des variables étoilées à l'intérieur des corpus en les introduisant en début de ligne par un tiret et une étoile (-*). La ligne ne doit contenir que cette variable.
89
90
91 Exemple :
92
93
94  <nowiki>**** *var_1 *var_2</nowiki>
95
96  -*thematique1
97  texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
98
99  -*thematique2
100  texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
101
102  <nowiki>**** *var_2 *var_3</nowiki>
103
104  -*thematique1
105  texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
106
107  -*thematique2
108  texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte texte
109
110
111 [[Image:]] Les variables étoilées et les thématiques introduites dans le corpus ne doivent pas contenir d'espaces ou de caractères spéciaux. Elles ne doivent contenir que des caractères parmi a-z, A-Z, 1-9 et des tirets bas (_).
112
113 <nowiki>*age 18 ans n'est pas un bon codage</nowiki>
114
115 <nowiki>*age_18 est un bon codage</nowiki>
116
117 <nowiki>*entretien_d'Emilie n'est pas un bon codage</nowiki>
118
119 <nowiki>*ent_emilie est un bon codage</nowiki>
120
121
122 == Statistiques textuelles ==
123 == Comme Lexico ==
124 == AFC sur UCI ==
125 == Analyses ALCESTE ==
126 == Classification par matrice des distances ==
127 TODO
128
129
130 = Analyses de tableaux de données =
131 == Format des données en entrée ==
132 == Fréquences ==
133 == Chi 2 ==
134 == T de Student ==
135 == Classification ==
136 === Par matrice des distances ===
137 === Méthode ALCESTE ===
138 == AFCM ==
139 == Graphes ==
140 = Bibliographie =
141 = Annexes =
142