images in tree

[iramuteq] / corpus.py
diff --git a/corpus.py b/corpus.py

index 3864812..e222940 100644 (file)
--- a/corpus.py
+++ b/corpus.py
@@ -8,7 +8,7 @@ _ = gettext.gettext
  import locale
  import sys
  from time import time
-from functions import decoupercharact, ReadDicoAsDico, DoConf
+from functions import decoupercharact, ReadDicoAsDico, DoConf, ReadLexique
  import re
  import sqlite3
  import itertools
@@ -17,7 +17,6 @@ from operator import itemgetter
  from uuid import uuid4
  from chemins import PathOut
  from dialog import CorpusPref
-from functions import ReadLexique, ReadDicoAsDico
  from colors import colors
  import datetime
  
@@ -38,8 +37,7 @@ def copycorpus(corpus) :
  
  class Corpus :
      """Corpus class
-    list of uci
-
+    list of text
      """
      def __init__(self, parent, parametres = {}, read = False) :
          self.parent = parent
@@ -77,10 +75,10 @@ class Corpus :
                  gramtype = self.parent.lexique[word][1]
                  lem = self.parent.lexique[word][0]
              elif word.isdigit() :
-                gramtype = 'num'
+                gramtype = u'num'
                  lem = word
              else :
-                gramtype = 'nr'
+                gramtype = u'nr'
                  lem = word
              self.formes[word] =  Word(word, gramtype, len(self.formes), lem)
              self.idformesuces[self.formes[word].ident] = {self.ucis[-1].uces[-1].ident : 1}
@@ -275,8 +273,12 @@ class Corpus :
          if self.iduces is None :
              self.iduces = dict([[uce.ident, uce] for uci in self.ucis for uce in uci.uces])
  
-    def make_lexitable(self, mineff, etoiles) :
-        tokeep = [lem for lem in self.lems if self.lems[lem].freq >= mineff]
+    def make_lexitable(self, mineff, etoiles, gram = 0) :
+        if gram == 0 :
+            grams = {1:'', 2:''}
+        else :
+            grams = {gram :''}
+        tokeep = [lem for lem in self.lems if self.lems[lem].freq >= mineff and self.lems[lem].act in grams]
          etuces = [[] for et in etoiles]
          for uci in self.ucis :
              get = list(set(uci.etoiles).intersection(etoiles))
@@ -433,6 +435,18 @@ class Corpus :
                  f.write(etline.encode(self.parametres['syscoding']) + '\n')
                  f.write(guce.encode(self.parametres['syscoding']) + '\n\n')
  
+    def export_classe(self, outf, classe, lem = False) :
+        sts = self.lc[classe - 1] 
+        res = self.getconcorde(sts)
+        self.make_iduces()
+        with open(outf, 'w') as f :
+            for uce in res :
+                guce = uce[1]
+                f.write(' '.join(self.ucis[self.iduces[uce[0]].uci].etoiles).encode(self.parametres['syscoding']) + '\n')
+                if lem :
+                    guce = ' '.join([self.formes[forme].lem for forme in guce.split()])
+                f.write(guce.encode(self.parametres['syscoding']) + '\n\n')
+
      def make_and_write_sparse_matrix_from_uces(self, actives, outfile, listuce = False) :
          log.info('make_and_write_sparse_matrix_from_uces %s' % outfile)
          nbl = 0
@@ -494,6 +508,17 @@ class Corpus :
                  table_uce[uces[uce]][i] = 1
          table_uce.insert(0, list_act)
          return table_uce      
+    
+    def make_pondtable_with_classe(self, uces, list_act) :
+        table_uce = [[0 for val in list_act] for line in range(0,len(uces))]
+        uces = dict([[uce, i] for i, uce in enumerate(uces)])
+        for i, lem in enumerate(list_act) :
+            uceseff = self.getlemuceseff(lem)
+            lemuces = list(set(uceseff.keys()).intersection(uces))
+            for uce in lemuces :
+                table_uce[uces[uce]][i] = uceseff[uce]
+        table_uce.insert(0, list_act)
+        return table_uce 
  
      def parse_active(self, gramact, gramsup = None) :
          log.info('parse actives')
@@ -502,7 +527,7 @@ class Corpus :
                  self.lems[lem].act = 2
              elif self.lems[lem].gram in gramact :
                  self.lems[lem].act = 1
-            elif gramsup is not None :
+            elif gramsup is not None and self.lems[lem].gram not in gramact:
                  if self.lems[lem].gram in gramsup :
                      self.lems[lem].act = 2
                  else :
@@ -522,6 +547,8 @@ class Corpus :
          allactives = [[self.lems[lem].freq, lem] for lem in self.lems if self.lems[lem].act == key and self.lems[lem].freq >= 3]
          self.activenb = len(allactives)
          allactives = sorted(allactives, reverse = True)
+        if self.activenb == 0 :
+            return [], 0
          if len(allactives) <= nbmax :
              log.info('nb = %i - eff min = %i ' % (len(allactives), allactives[-1][0]))
              return [val[1] for val in allactives], allactives[-1][0]
@@ -707,27 +734,37 @@ class Corpus :
          self.lc0 = self.lc.pop(0)
          #return ucecl
      
-    def get_stat_by_cluster(self, outf) :
+    def get_stat_by_cluster(self, outf, lclasses = None) :
          log.info('get_stat_by_cluster')
+        if lclasses is None :
+            lclasses = self.lc
          t1 = time()
-        occurrences = dict([[i + 1, 0] for i in range(len(self.lc))])
-        formescl = dict([[i + 1, 0] for i in range(len(self.lc))])
-        hapaxcl = dict([[i + 1, 0] for i in range(len(self.lc))])
-        lenclasses = dict([[i+1,len(cl)] for i, cl in enumerate(self.lc)])
-        sets = [set(cl) for cl in self.lc]
+        occurrences = dict([[i + 1, 0] for i in range(len(lclasses))])
+        formescl = dict([[i + 1, 0] for i in range(len(lclasses))])
+        hapaxcl = dict([[i + 1, 0] for i in range(len(lclasses))])
+        lenclasses = dict([[i+1,len(cl)] for i, cl in enumerate(lclasses)])
+        sets = [set(cl) for cl in lclasses]
          for forme in self.formes :
              formeuceeff = self.getformeuceseff(forme)
-            for i, classe in enumerate(self.lc) :
+            for i, classe in enumerate(lclasses) :
                  concern = sets[i].intersection(formeuceeff.keys())
                  if len(concern) :
                      occurrences[i+1] += sum([formeuceeff[uce] for uce in concern])
                      formescl[i+1] += 1
                      if self.formes[forme].freq == 1 :
                          hapaxcl[i+1] += 1
-        toprint = '\n'.join([';'.join([`i`, `occurrences[i]`, `formescl[i]`, `hapaxcl[i]`, `lenclasses[i]`, `float(hapaxcl[i])/float(formescl[i])`]) for i in occurrences])
-        with open(outf, 'w') as f :
-            f.write(toprint)
          log.info('%f' % (time() - t1))        
+        if outf is not None :
+            toprint = '\n'.join([';'.join([`i`, `occurrences[i]`, `formescl[i]`, `hapaxcl[i]`, `lenclasses[i]`, `float(hapaxcl[i])/float(formescl[i])`]) for i in occurrences])
+            with open(outf, 'w') as f :
+                f.write(toprint)
+        else :
+            return [[`occurrences[i]`, `formescl[i]`, `hapaxcl[i]`, `lenclasses[i]`, `float(hapaxcl[i])/float(formescl[i])`] for i in occurrences]
+
+    def get_stat_by_et(self, outf, etoiles) :
+        lclasses = [self.getucesfrometoile(etoile) for etoile in etoiles]
+        stats = self.get_stat_by_cluster(None, lclasses)
+        stats = [[etoiles[i]] + val for i, val in enumerate(stats)]
  
      def gethapaxbyet(self, etoiles) :
          hapaxuces = [self.getlemuces(forme)[0] for forme in self.lems if self.lems[forme].freq == 1]
@@ -786,14 +823,29 @@ class Corpus :
          with open('/tmp/testhapxuce.html','w') as f :
              f.write(txt)
  
+    def export_dictionary(self, fileout, syscoding) :
+        listformes = [[self.formes[forme].freq, forme, self.formes[forme].lem, self.formes[forme].gram] for forme in self.formes]
+        listformes.sort(reverse = True)
+        listformes = [forme[1:] + [`forme[0]`] for forme in listformes]
+        with open(fileout, 'w') as f :
+            f.write('\n'.join(['\t'.join(forme) for forme in listformes]).encode(syscoding))
+
+    def export_lems(self, fileout, syscoding) :
+        self.make_idformes()
+        listlem = [[lem, '\t'.join(['\t'.join([self.idformes[forme].forme, `self.lems[lem].formes[forme]`]) for forme in self.lems[lem].formes])] for lem in self.lems]
+        listlem.sort()
+        with open(fileout, 'w') as f :
+            f.write('\n'.join(['\t'.join(lem) for lem in listlem]).encode(syscoding))
+
+
+
  
  class MakeUciStat :
      def __init__(self, corpus) :
          ucinb = corpus.getucinb()
          ucisize = corpus.getucisize()
          ucimean = float(sum(ucisize))/float(ucinb)
-        detoile = corpus.make_etoiles_dict()
-        
+        detoile = corpus.make_etoiles_dict() 
  
  class Uci :
      def __init__(self, iduci, line, paraset = None) :
@@ -1043,7 +1095,7 @@ class BuildCorpus :
      def firstclean(self, txt) :
          txt = txt.replace(u'’',"'")
          txt = txt.replace(u'œ', u'oe')
-        return txt.replace('...',u' £$£ ').replace('?',' ? ').replace('.',' . ').replace('!', ' ! ').replace(',',' , ').replace(';', ' ; ').replace(':',' : ').replace(u'…', ' £$£ ')
+        return txt.replace('...',u' £$£ ').replace('?',' ? ').replace('.',' . ').replace('!', ' ! ').replace(',',' , ').replace(';', ' ; ').replace(':',' : ').replace(u'…', u' £$£ ')
  
      def make_cleans(self, txt) :
          for clean in self.cleans :