first import
[iramuteq] /
1 #!/bin/env python
2 # -*- coding: utf-8 -*-
3 #Author: Pierre Ratinaud
4 #Copyright (c) 2008-2009 Pierre Ratinaud
5 #Lisense: GNU/GPL
7 #from chemins import ConstructPathOut, StatTxtPathOut, ffr
8 from chemins import PathOut
9 from analysetxt import AnalyseText
10 #from corpus import Corpus
11 from guifunct import getPage, getCorpus
12 from ConfigParser import RawConfigParser
13 from functions import sortedby, progressbar, CreateIraFile, exec_rcode, check_Rresult, DoConf
14 from dialog import StatDialog
15 from openanalyse import OpenAnalyse
16 #from ttparser import * 
17 import tempfile
18 from time import sleep
19 import wx
20 import os
22 print 'TEST LOGGING'
23 import logging
25 logger = logging.getLogger('iramuteq.textstat')
29 class Stat(AnalyseText) :
30     def doanalyse(self) :
31         self.make_stats()
33     def preferences(self) :
34         dial = StatDialog(self, self.parent)
35         dial.CenterOnParent()
36         val = dial.ShowModal()
37         if val == 5100 :
38             if dial.radio_lem.GetSelection() == 0 :
39                 lem = 1
40             else :
41                 lem = 0            
42             self.parametres['lem'] = lem
43             dial.Destroy()
44             return self.parametres
45         else :
46             dial.Destroy()
47             return None
49     def make_stats(self):
50         if self.dlg :
51             if not 'dlg' in dir(self) :
52                 self.dlg = progressbar(self, 7)
53         #if not self.lem :
54         #    formes = self.corpus.formes
55         #else :
56         #    self.corpus.make_lems()
57         formes = self.corpus.lems
58         tot = [[forme, formes[forme].freq, formes[forme].gram] for forme in formes if formes[forme].freq > 1]
59         tot = sortedby(tot, 2,1)
60         tot = [[i, val] for i, val in enumerate(tot)]
61         hapax = [[forme, formes[forme].freq, formes[forme].gram] for forme in formes if formes[forme].freq == 1]
62         hapax = sortedby(hapax, 1, 1)
63         hapax = [[i, val] for i, val in enumerate(hapax)]
64         act = [[forme, formes[forme].freq, formes[forme].gram] for forme in formes if formes[forme].act == 1]
65         act = sortedby(act, 2, 1)
66         act = [[i, val] for i, val in enumerate(act)]
67         supp = [[forme, formes[forme].freq, formes[forme].gram] for forme in formes if formes[forme].act == 2]        
68         supp = sortedby(supp, 2, 1)
70         supp = [[i, val] for i, val in enumerate(supp)]
71         #self.corpus.pathout = self.dictpathout
72         #self.corpus.make_type_tot()
74         self.result = {u'total' : dict(tot), u'formes_actives' : dict(act), u'formes_supplĂ©mentaires' : dict(supp), u'hapax' : dict(hapax), u'glob' : ''}
75         occurrences = sum([val[1][1] for val in tot]) + len(hapax)
76         phapax = (float(len(hapax)) / float(occurrences)) * 100
77         phapax_forme = (float(len(hapax)) / (float(len(formes)))) * 100
78         moy_occu_mot = float(occurrences) / float(len(formes))
79         txt = 'Globale\n'
80         txt += 'nombre d\'uci : %i\n' % len(self.corpus.ucis)
81         txt += 'nombre d\'occurrences : %i\n' % occurrences
82         txt += 'nombre de formes : %i\n' % (len(formes))
83         txt += 'moyenne d\'occurrences par forme : %.2f\n' % moy_occu_mot
84         txt += 'nombre d\'hapax : %i (%.2f%% des occurrences - %.2f%% des formes)\n' % (len(hapax), phapax, phapax_forme)
85         print float(occurrences), float(len(self.corpus.ucis))
86         txt += 'moyenne d\'occurrences par uci : %.2f' % (float(occurrences)/float(len(self.corpus.ucis)))
87         if self.dlg :
88              self.dlg.Update(7, u'Ecriture...')
89         self.result['glob'] = txt
90         self.print_result()
91         # for Zipf grap
92         txt = """
93         source("%s")
94         tot <- read.csv2("%s", header = FALSE, row.names = 1)
95         hapax <- read.csv2("%s", header = FALSE, row.names = 1)
96         tot <- rbind(tot, hapax)
97         open_file_graph("%s", width = 400, height = 400)
98         plot(log(tot[,1]), log = 'x', xlab='log(rangs)', ylab = 'log(frequences)', col = 'red', pch=16)
100         """ % (self.parent.RscriptsPath['Rgraph'], self.pathout['total.csv'], self.pathout['hapax.csv'], self.pathout['zipf.png'])
101         tmpscript = tempfile.mktemp(dir=self.parent.TEMPDIR)
102         with open(tmpscript, 'w') as f :
103             f.write(txt)
104         pid = exec_rcode(self.parent.RPath, tmpscript, wait = False)
105         while pid.poll() == None :
106             sleep(0.2)
107         check_Rresult(self.parent, pid)
108         #CreateIraFile(self.dictpathout, 0, corpname = os.path.basename(self.corpus.parametre['filename']), section = 'stat')
109         if self.dlg :
110             #OpenAnalyse(self.parent, self.pathout['Analyse.ira'])
111             #self.DoLayout(self.parent)
112             self.dlg.Destroy()
114     def print_result(self) :
115         for key in self.result :
116             if key != 'glob' :
117                 dico = self.result[key]
118                 toprint = [[dico[val][0],`dico[val][1]`, dico[val][2]] for val in dico]
119                 #toprint = [[line[0], `line[1]`] for line in self.result[key]]
120                 with open(self.pathout['%s.csv' % key], 'w') as f :
121                     f.write('\n'.join([';'.join([val for val in ligne]) for ligne in toprint]).encode(self.parent.syscoding))
122             else :
123                 with open(self.pathout['%s.txt' % 'glob'], 'w') as f :
124                     f.write(self.result['glob'].encode(self.parent.syscoding))
125             self.parametres['pathout'] = self.pathout['Analyse.ira']
126             DoConf().makeoptions(['stat'],[self.parametres], self.pathout['Analyse.ira'])
