...
[iramuteq] / import_txm.py
index d9eea31..675a9c9 100644 (file)
@@ -11,7 +11,7 @@ import glob
 
 
 
 
 
 
-#infiledir = '/home/pierre/TXM/corpora/voeux-bin/txm/VOEUX/'
+#infiledir = '/home/pierre/TXM/corpus/voeux-bin/txm/VOEUX/'
 #fileout = 'VOEUXExportfromTXM.txt'
 
 
 #fileout = 'VOEUXExportfromTXM.txt'
 
 
@@ -35,7 +35,7 @@ class TXMParser(xml.sax.ContentHandler) :
             pass
 
     def endElement(self, name) :
             pass
 
     def endElement(self, name) :
-        if name == 's' :
+        if name == 's' or name == 'w' :
             self.printsent()
         if name == 'p' :
             self.printsent()
             self.printsent()
         if name == 'p' :
             self.printsent()
@@ -48,7 +48,7 @@ class TXMParser(xml.sax.ContentHandler) :
             #self.fileout.write(content.encode('utf8'))
 
     def text2stars(self, attrs) :
             #self.fileout.write(content.encode('utf8'))
 
     def text2stars(self, attrs) :
-        stars = ['_'.join(val).replace(' ', '_').replace("'", '_') for val in attrs.items()]
+        stars = ['_'.join(val).replace(' ', '_').replace("'", '_').replace('/','').replace('.','').replace(';', '').replace(':', '').replace(u'ยท','') for val in attrs.items()]
         stars = [''.join([u'*', val]) for val in stars]
         stars = u'**** ' + ' '.join(stars)
         self.fileout.write(stars.encode(self.encodage_out))
         stars = [''.join([u'*', val]) for val in stars]
         stars = u'**** ' + ' '.join(stars)
         self.fileout.write(stars.encode(self.encodage_out))
@@ -74,5 +74,6 @@ class TXM2IRA :
             for f in files :
                 parser.parse(open(f, 'r'))
                 fout.write('\n\n')
             for f in files :
                 parser.parse(open(f, 'r'))
                 fout.write('\n\n')
+        print 'done'
 
 #TXM2IRA(infiledir, fileout)
 
 #TXM2IRA(infiledir, fileout)