...
[iramuteq] / parse_europress.py
1 # -*- coding: utf-8 -*-
2 #Author: Pierre Ratinaud
3 #Copyright (c) 2014 Pierre Ratinaud
4 #License: GNU/GPL
5
6
7 #from BeautifulSoup import BeautifulSoup
8 import codecs
9 import os
10 from HTMLParser import HTMLParser
11
12
13 mois = {u'janvier' : '01', 
14         u'février' : '02',
15         u'mars' : '03',
16         u'avril' : '04', 
17         u'mai' : '05',
18         u'juin' : '06',
19         u'juillet' : '07',
20         u'août' : '08',
21         u'septembre' : '09',
22         u'octobre' : '10',
23         u'novembre' : '11',
24         u'décembre' : '12', 
25         u'january' : '01',
26         u'february': '02',
27         u'march' : '03',
28         u'april': '04',
29         u'may': '05',
30         u'june' : '06',
31         u'july': '07',
32         u'august': '08',
33         u'september' : '09',
34         u'october': '10',
35         u'november': '11',
36         u'december': '12'}
37
38
39 def finddate(data):
40     data = data.split()
41     try :
42         day = int(data[0])
43         year = int(data[2])
44         month = mois[data[1]]
45     except :
46         return None
47     else :
48         return [`year`, month, '%02d' % day]
49     
50
51 # create a subclass and override the handler methods
52 class MyHTMLParser(HTMLParser):
53     def handle_starttag(self, tag, attrs):
54         #print "Encountered a start tag:", tag
55         if tag == 'span' :
56             if attrs[0][1] == 'DocPublicationName' :
57                 self.headercount = 0
58                 self.currentattr = 'DocPublicationName'
59             elif attrs[0][1] == 'DocHeader' :
60                 self.headercount += 1
61                 self.currentattr = 'DocHeader'
62             elif attrs[0][1] == 'TitreArticleVisu' :
63                 self.outfile.write('\n\n')
64                 self.meta.append('\n')
65                 self.outfile.write(' '.join(self.meta).encode('utf8', errors='replace'))
66                 self.meta = [u'****']
67                 self.nb += 1
68                 self.currentattr = 'TitreArticleVisu'
69         elif tag == 'table' :
70             self.currentattr = None
71     def handle_endtag(self, tag):
72         pass
73         #print "Encountered an end tag :", tag
74     def handle_data(self, data):
75         if self.currentattr == 'DocPublicationName' :
76             PublicationName = data.replace(' ', '_').replace('(','').replace(')','').replace('.','').replace('/','').replace("'",'').replace(';', '').replace(':', '').replace(u'·','').lower()
77             PublicationName = PublicationName.split(',')[0]
78             self.meta.append(u'*source_' + PublicationName)
79         elif self.currentattr == 'DocHeader' :
80             date = finddate(data)
81             if date is not None :
82                 self.meta += [u'*date_' + '-'.join(date), u'*am_' + '-'.join(date[0:2]), u'*annee_' + date[0]]
83         elif self.currentattr == 'TitreArticleVisu' :
84             if data.startswith(u'©') :
85                 self.currentattr = None
86                 return
87             self.outfile.write(' '.join(data.replace('\n', ' ').split()).encode('utf8', errors='replace') + ' ')
88     
89     def doinit(self, outfile):
90         self.currentattr = None
91         self.meta = [u'****']
92         self.nb = 0
93         self.outfile = outfile
94         
95
96 def ParseEuropress(txtdir, fileout, encodage_in, encodage_out) :
97         files = []
98         for root, subfolders, subfiles in os.walk(txtdir) :
99             nf = [os.path.join(root, f) for f in subfiles if f.split('.')[-1] == 'html']
100             nf.sort()
101             files += nf
102         if len(files) == 0 :
103             return 'nofile'
104         tot = 0
105         parser = MyHTMLParser()
106         with open(fileout,'w') as outf : 
107             for f in files : 
108                 print f
109                 parser.doinit(outf)
110                 with codecs.open(f, 'rU', encodage_in) as infile : 
111                     content = infile.read() 
112                 parser.feed(content)
113                 tot += parser.nb
114         return tot
115                 
116 #ParseEuropress('/home/pierre/fac/lerass/mariage/press', '/home/pierre/workspace/iramuteq/dev/europress/corpus_out.txt', 'utf8', 'utf8')     
117         #print "Encountered some data  :", data
118 # instantiate the parser and fed it some HTML
119 #outfile = '/home/pierre/workspace/iramuteq/dev/europress/corpus_out.txt'
120 #parser = MyHTMLParser()
121 #with open(outfile, 'w') as f :
122 #    parser.doinit(f)
123 #    parser.feed(html)