elif attrs[0][1] == 'DocHeader' :
self.headercount += 1
self.currentattr = 'DocHeader'
- elif attrs[0][1] in ['TitreArticleVisu', 'titreArticleVisu'] :
+ elif attrs[0][1] in ['TitreArticleVisu', 'titreArticleVisu', 'titreArticle'] :
self.outfile.write('\n\n')
self.meta.append('\n')
self.outfile.write(' '.join(self.meta).encode('utf8', errors='replace'))
if len(attrs)>0 :
if attrs[0][1] == 'publiC-lblNodoc' :
self.currentattr = 'PubliC_lblNodoc'
+ elif attrs[0][1] == 'DocText' :
+ self.currentattr = 'TitreArticleVisu'
+ elif attrs[0][1] == 'titreArticle' :
+ self.currentattr = 'TitreArticleVisu'
elif tag == 'p' :
if len(attrs) > 0 :
if attrs[0][1] == 'titreArticleVisu' :
pass
#print "Encountered an end tag :", tag
def handle_data(self, data):
+ #print self.currentattr
if self.currentattr == 'DocPublicationName' :
#print data
PublicationName = data.strip().replace(' ', '_').replace('(','').replace(')','').replace('-','').replace('.','').replace('/','').replace("'",'').replace(';', '').replace(':', '').replace(u'ยท','').lower()
tot += parser.nb
return tot
-#ParseEuropress('/home/pierre/fac/etudiant/DeNadai/corpus_loi_travail',
-# '/home/pierre/fac/etudiant/DeNadai/corpus_loi_W.txt', 'utf8', 'utf8')
+#ParseEuropress('/home/pierre/fac/HDR/psychanalyse',
+# '/home/pierre/fac/HDR/psycha.txt', 'utf8', 'utf8')