iramuteq.org Git - iramuteq/blob - tools.py

   1 #!/bin/env python
   2 # -*- coding: utf-8 -*-
   3 #Author: Pierre Ratinaud
   4 #Copyright (c) 2008-2013, Pierre Ratinaud
   5 #Lisense: GNU GPL
   6
   7 import codecs
   8 import os
   9 from dialog import ExtractDialog
  10 from corpus import Corpus, copycorpus
  11 import wx
  12
  13
  14 parametres = {'filein' : 'corpus/lru2.txt',
  15               'encodein' : 'utf8',
  16               'encodeout' : 'utf8',
  17               'mods' : [u'*annee_2010', u'*annee_2011']}
  18
  19 def istext(line) :
  20     if line.startswith(u'**** ') :
  21         return True
  22     else :
  23         return False
  24
  25 def testvar(line, variable) :
  26     line = line.split()
  27     varmod = [val.split('_') for val in line[1:]]
  28     vars = [var[0] for var in varmod]
  29     if variable in vars :
  30         return '_'.join([variable, varmod[vars.index(variable)][1]]).replace(u'*','')
  31     else :
  32         return False
  33
  34 def testmod(line, mods) :
  35     line = line.split()
  36     for mod in mods :
  37         if mod in line[1:] :
  38             return mod.replace(u'*','')
  39     return False
  40
  41
  42 class Extract :
  43     def __init__(self, parent, option) :
  44         dial = ExtractDialog(parent, option)
  45         dial.CenterOnParent()
  46         res = dial.ShowModal()
  47         if res == wx.ID_OK :
  48             parametres = dial.make_param()
  49             if option == 'splitvar' :
  50                 SplitFromVar(parametres)
  51             else :
  52                 ExtractMods(parametres)
  53
  54 class SplitFromVar :
  55     def __init__(self, parametres) :
  56         self.filein = parametres['filein']
  57         self.var = parametres['var']
  58         self.encodein = parametres['encodein']
  59         self.encodeout = parametres['encodeout']
  60         self.basepath = os.path.dirname(self.filein)
  61         self.doparse()
  62
  63     def doparse(self) :
  64         keepline = False
  65         filedict = {}
  66         with codecs.open(self.filein, 'r', self.encodein) as fin :
  67              for line in fin :
  68                  if istext(line) :
  69                      varmod = testvar(line, self.var)
  70                      if varmod :
  71                          keepline = True
  72                          if varmod not in filedict :
  73                              filename = os.path.join(self.basepath, varmod + '.txt')
  74                              filedict[varmod] = open(filename, 'w')
  75                          fileout = filedict[varmod]
  76                      else :
  77                          keepline = False
  78                  if keepline :
  79                      fileout.write(line.encode(self.encodeout))
  80         for f in filedict :
  81             filedict[f].close()
  82
  83 class ExtractMods :
  84     def __init__(self, parametres) :
  85         self.onefile = parametres.get('onefile', False)
  86         self.filein = parametres['filein']
  87         self.mods = parametres['mods']
  88         self.encodein = parametres['encodein']
  89         self.encodeout = parametres['encodeout']
  90         self.basepath = os.path.dirname(self.filein)
  91         if self.onefile :
  92             filename = os.path.join(self.basepath, '_'.join([mod.replace(u'*','') for mod in self.mods])+'.txt')
  93             self.fileout = open(filename, 'w')
  94         self.doparse()
  95
  96     def doparse(self) :
  97         keepline = False
  98         filedict = {}
  99         with codecs.open(self.filein, 'r', self.encodein) as fin :
 100              for line in fin :
 101                  if istext(line) :
 102                      modinline = testmod(line, self.mods)
 103                      if modinline :
 104                          keepline = True
 105                          if not self.onefile :
 106                             if modinline not in filedict :
 107                                 filename = os.path.join(self.basepath, modinline + '.txt')
 108                                 filedict[modinline] = open(filename, 'w')
 109                             fileout = filedict[modinline]
 110                          else :
 111                              fileout = self.fileout
 112                      else :
 113                          keepline = False
 114                  if keepline :
 115                      fileout.write(line.encode(self.encodeout))
 116         if not self.onefile :
 117             for f in filedict :
 118                 filedict[f].close()
 119         else :
 120             self.fileout.close()
 121
 122
 123 class SubCorpus(Corpus) :
 124     def __init__(self, parent, corpus, sgts) :
 125         Corpus.__init__(self, parent, corpus.parametres)
 126         self.sgts = sgts
 127         self.corpus = copycorpus(corpus)
 128         self.corpus.make_lems(self.parametres['lem'])
 129         textes = list(set([corpus.getucefromid(sgt).uci for sgt in sgts]))
 130         self.ucis = [corpus.ucis[i] for i in textes]
 131         for texte in self.ucis :
 132             texte.uces = [uce for uce in texte.uces if uce.ident in self.sgts]
 133         self.make_formes(corpus)
 134         self.pathout = corpus.pathout
 135         self.parametres['sub'] = self.sgts
 136
 137     def make_formes(self, corpus) :
 138         self.formes = {}
 139         for forme in self.corpus.formes :
 140             sgtseff = self.corpus.getformeuceseff(forme)
 141             sgts = set(self.sgts).intersection(sgtseff.keys())
 142             if len(sgts) :
 143                 self.formes[forme] = self.corpus.formes[forme]
 144                 self.formes[forme].freq = sum([sgtseff[sgt] for sgt in sgts])
 145
 146     def getlemuces(self, lem) :
 147         return list(set(self.sgts).intersection(self.corpus.getlemuces(lem)))
 148
 149
 150
 151
 152
 153
 154 if __name__ == '__main__' :
 155     #SplitFromVar(parametres)
 156     ExtractMods(parametres, True)