-def doparse(txtdir, fileout, encodage_in, encodage_out):
- files = os.listdir(txtdir) #liste des fichiers dans txtdir
- with open(fileout,'w') as outf : #ouverture du fichier en sortie
- for f in files : #pour chaque fichier en entree...
- f= os.path.join(txtdir, f) #chemin du fichier
- with codecs.open(f, 'r', encodage_in) as infile : #ouverture du fichier
- content = infile.read() #lecture du fichier
- ucis = parsetxt(content)
- print_ucis(ucis, outf, encodage_out)
+class ParseFactivaPaste :
+ def __init__(self, txtdir, fileout, encodage_in, encodage_out) :
+ files = []
+ for root, subfolders, subfiles in os.walk(txtdir) :
+ nf = [os.path.join(root, f) for f in subfiles if f.split('.')[-1] == 'txt']
+ nf.sort()
+ files += nf
+ tot = 0
+ with open(fileout,'w') as outf :
+ for f in files :
+ print f
+ with codecs.open(f, 'rU', encodage_in) as infile :
+ content = infile.read()
+ ucis = parsetxtpaste(content)
+ print_ucis(ucis, outf, encodage_out)
+ tot += len(ucis)
+ print 'ok', len(ucis), 'articles', ' - total : ', tot