1 # -*- coding: utf-8 -*-
2 #Author: Pierre Ratinaud
3 #Copyright (c) 2008-2020 Pierre Ratinaud
6 # encodage est utilisé - mais utf-8 est par défaut dans PY3
8 #------------------------------------
9 # import des modules python
10 #------------------------------------
14 filein = '/home/pierre/fac/cablegate/allcables-all.txt'
17 infile = codecs.open(filein, 'r', enc)
21 def __init__(self, parent) :
23 self.parametre = {'syscoding': sys.getdefaultencoding()}
31 self.ucis_paras_uces = None
36 #self.supplementaires = []
41 def open_corpus(self) :
42 return codecs.open(self.parametre['filename'], "r", self.parametre['encodage'])
44 def buildcorpus(self) :
46 ucifile = os.path.join(os.path.basedir(self.parametre['filename']), 'ucis.txt')
47 uci = open(ucifile, 'w')
49 for line in self.open_corpus() :
50 if line.startswith(u'****') and i==0 :
53 elif line.startswith(u'****') and i=!0 :
62 addlinetouci(uci, prepare(line))
63 line = line.lower().replace(u'\'','\' ').replace(u'’','\' ').replace('...',u' £ ').replace('?',' ? ').replace('.',' . ').replace('!', ' ! ').replace(',',' , ').replace(';', ' ; ').replace(':', ' : ').strip()
64 line = line.replace('\n', ' ').replace('\r', ' ')
66 content[-1].append(line)