iramuteq.org Git - iramuteq/blob - tools.py

   1 #!/bin/env python
   2 # -*- coding: utf-8 -*-
   3 #Author: Pierre Ratinaud
   4 #Copyright (c) 2008-2013, Pierre Ratinaud
   5 #License: GNU GPL
   6
   7 import codecs
   8 import os
   9 from dialog import ExtractDialog
  10 from corpus import Corpus, copycorpus
  11 import wx
  12
  13
  14 parametres = {'filein' : 'corpus/lru2.txt',
  15               'encodein' : 'utf8',
  16               'encodeout' : 'utf8',
  17               'mods' : [u'*annee_2010', u'*annee_2011']}
  18
  19 def istext(line) :
  20     if line.startswith(u'**** ') :
  21         return True
  22     else :
  23         return False
  24
  25 def isthem(line):
  26     if line.startswith(u'-*') :
  27         return True
  28     else :
  29         return False
  30
  31 def testvar(line, variable) :
  32     line = line.split()
  33     varmod = [val.split('_') for val in line[1:]]
  34     vars = [var[0] for var in varmod]
  35     if variable in vars :
  36         return '_'.join([variable, varmod[vars.index(variable)][1]]).replace(u'*','')
  37     else :
  38         return False
  39
  40 def testmod(line, mods) :
  41     line = line.split()
  42     for mod in mods :
  43         if mod in line[1:] :
  44             return mod.replace(u'*','')
  45     return False
  46
  47
  48 class Extract :
  49     def __init__(self, parent, option) :
  50         dial = ExtractDialog(parent, option)
  51         dial.CenterOnParent()
  52         res = dial.ShowModal()
  53         if res == wx.ID_OK :
  54             parametres = dial.make_param()
  55             if option == 'splitvar' :
  56                 SplitFromVar(parametres)
  57             elif option == 'mods' :
  58                 ExtractMods(parametres)
  59             elif option == 'them' :
  60                 SplitFromThem(parametres)
  61         dial.Destroy()
  62         dial = wx.MessageDialog(parent, 'Done !', style = wx.OK)
  63         dial.ShowModal()
  64         dial.Destroy()
  65
  66 class SplitFromVar :
  67     def __init__(self, parametres) :
  68         self.filein = parametres['filein']
  69         self.var = parametres['var']
  70         self.encodein = parametres['encodein']
  71         self.encodeout = parametres['encodeout']
  72         self.basepath = os.path.dirname(self.filein)
  73         self.doparse()
  74
  75     def doparse(self) :
  76         keepline = False
  77         filedict = {}
  78         with codecs.open(self.filein, 'r', self.encodein) as fin :
  79             for line in fin :
  80                 if istext(line) :
  81                     varmod = testvar(line, self.var)
  82                     if varmod :
  83                         keepline = True
  84                         if varmod not in filedict :
  85                             filename = os.path.join(self.basepath, varmod + '.txt')
  86                             filedict[varmod] = open(filename, 'w')
  87                         fileout = filedict[varmod]
  88                     else :
  89                         keepline = False
  90                 if keepline :
  91                     fileout.write(line.encode(self.encodeout))
  92         for f in filedict :
  93             filedict[f].close()
  94
  95 class SplitFromThem :
  96     def __init__(self, parametres) :
  97         self.filein = parametres['filein']
  98         self.them = parametres['them']
  99         self.encodein = parametres['encodein']
 100         self.encodeout = parametres['encodeout']
 101         self.basepath = os.path.dirname(self.filein)
 102         self.pathout = os.path.join(self.basepath, '_'.join([them.replace(u'-*','') for them in self.them]))
 103         self.fileout = open(self.pathout, 'w')
 104         self.doparse()
 105         self.fileout.close()
 106
 107     def doparse(self):
 108         text = ''
 109         keepline = False
 110         lastet = ''
 111         with codecs.open(self.filein, 'r', self.encodein) as fin :
 112             for line in fin :
 113                 if istext(line) :
 114                     self.writetext(self.fileout, lastet, text)
 115                     text = ''
 116                     lastet = line
 117                 if isthem(line) :
 118                     l = line.strip().rstrip('\n\r')
 119                     if l in self.them :
 120                         keepline = True
 121                     else :
 122                         keepline = False
 123                 if keepline :
 124                     text += line
 125             self.writetext(self.fileout, lastet, text)
 126
 127     def writetext(self, fileout, lastet, text):
 128         if text != '' :
 129             self.fileout.write(lastet.encode(self.encodeout) + text.encode(self.encodeout))
 130
 131
 132 class ExtractMods :
 133     def __init__(self, parametres) :
 134         self.onefile = parametres.get('onefile', False)
 135         self.filein = parametres['filein']
 136         self.mods = parametres['mods']
 137         self.encodein = parametres['encodein']
 138         self.encodeout = parametres['encodeout']
 139         self.basepath = os.path.dirname(self.filein)
 140         if self.onefile :
 141             filename = os.path.join(self.basepath, '_'.join([mod.replace(u'*','') for mod in self.mods])+'.txt')
 142             self.fileout = open(filename, 'w')
 143         self.doparse()
 144
 145     def doparse(self) :
 146         keepline = False
 147         filedict = {}
 148         with codecs.open(self.filein, 'r', self.encodein) as fin :
 149             for line in fin :
 150                 if istext(line) :
 151                     modinline = testmod(line, self.mods)
 152                     if modinline :
 153                         keepline = True
 154                         if not self.onefile :
 155                             if modinline not in filedict :
 156                                 filename = os.path.join(self.basepath, modinline + '.txt')
 157                                 filedict[modinline] = open(filename, 'w')
 158                             fileout = filedict[modinline]
 159                         else :
 160                             fileout = self.fileout
 161                     else :
 162                         keepline = False
 163                 if keepline :
 164                     fileout.write(line.encode(self.encodeout))
 165         if not self.onefile :
 166             for f in filedict :
 167                 filedict[f].close()
 168         else :
 169             self.fileout.close()
 170
 171
 172 class SubCorpus(Corpus) :
 173     def __init__(self, parent, corpus, sgts) :
 174         Corpus.__init__(self, parent, corpus.parametres)
 175         self.sgts = sgts
 176         self.corpus = copycorpus(corpus)
 177         self.corpus.make_lems(self.parametres['lem'])
 178         textes = list(set([corpus.getucefromid(sgt).uci for sgt in sgts]))
 179         self.ucis = [corpus.ucis[i] for i in textes]
 180         for texte in self.ucis :
 181             texte.uces = [uce for uce in texte.uces if uce.ident in self.sgts]
 182         self.make_formes(corpus)
 183         self.pathout = corpus.pathout
 184         self.parametres['sub'] = self.sgts
 185
 186     def make_formes(self, corpus) :
 187         self.formes = {}
 188         for forme in self.corpus.formes :
 189             sgtseff = self.corpus.getformeuceseff(forme)
 190             sgts = set(self.sgts).intersection(sgtseff.keys())
 191             if len(sgts) :
 192                 self.formes[forme] = self.corpus.formes[forme]
 193                 self.formes[forme].freq = sum([sgtseff[sgt] for sgt in sgts])
 194
 195     def getlemuces(self, lem) :
 196         return list(set(self.sgts).intersection(self.corpus.getlemuces(lem)))
 197
 198 def converttabletocorpus(table, fileout, enc='UTF8') :
 199     var = table.pop(0)
 200     var = var[0:len(var)-1]
 201     print var
 202     et = [zip(var, line[0:len(line)-1]) for line in table]
 203     et = ['**** ' + ' '.join(['*' + '_'.join(val) for val in line]) for line in et]
 204     txt = ['\n'.join([et[i], line[-1]]) for i, line in enumerate(table)]
 205     print '\n'.join(txt)
 206     #with open(fileout, 'w') as f :
 207
 208
 209
 210
 211
 212 if __name__ == '__main__' :
 213     #SplitFromVar(parametres)
 214     ExtractMods(parametres, True)