Removed message outputted when skipping non-xml files in importbooks command.
[wolnelektury.git] / lib / librarian / bin / book2txt.py
index 86f6f12..9c47080 100755 (executable)
@@ -6,15 +6,26 @@ import optparse
 import codecs
 
 
 import codecs
 
 
+HEADER = u"""\
+Kodowanie znaków w dokumencie: UTF-8.
+-----
+Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez
+Bibliotekę Narodową z egzemplarza pochodzącego ze zbiorów BN. Ten utwór nie jest chroniony prawem autorskim i znajduje
+się w domenie publicznej, co oznacza, że możesz go swobodnie wykorzystywać, publikować i rozpowszechniać.
+-----
+
+"""
+
+
 REGEXES = [
     (r'<rdf:RDF[^>]*>(.|\n)*?</rdf:RDF>', ''),
     (r'<motyw[^>]*>(.|\n)*?</motyw>', ''),
     ('<(begin|end)\\sid=[\'|"][b|e]\\d+[\'|"]\\s/>', ''),
     (r'<extra>((<!--<(elementy_poczatkowe|tekst_glowny)>-->)|(<!--</(elementy_poczatkowe|tekst_glowny)>-->))</extra>', ''),
 REGEXES = [
     (r'<rdf:RDF[^>]*>(.|\n)*?</rdf:RDF>', ''),
     (r'<motyw[^>]*>(.|\n)*?</motyw>', ''),
     ('<(begin|end)\\sid=[\'|"][b|e]\\d+[\'|"]\\s/>', ''),
     (r'<extra>((<!--<(elementy_poczatkowe|tekst_glowny)>-->)|(<!--</(elementy_poczatkowe|tekst_glowny)>-->))</extra>', ''),
-    (r'<uwaga>[^<]*</uwaga>', ''),
-    (r'<p[a|e|r|t]>(.|\n)*?</p>', ''),
+    (r'<uwaga>(.|\n)*?</uwaga>', ''),
+    (r'<p[a|e|r|t]>(.|\n)*?</p[a|e|r|t]>', ''),
     (r'<[^>]+>', ''),
     (r'<[^>]+>', ''),
-    (r'/$', ''),
+    (r'/\n', '\n'),
     (r'---', u'—'),
     (r'--', u'-'),
     (r',,', u'„'),
     (r'---', u'—'),
     (r'--', u'-'),
     (r',,', u'„'),
@@ -50,7 +61,8 @@ if __name__ == '__main__':
             # print pattern, repl
             xml, n = re.subn(pattern, repl, xml)
             # print n
             # print pattern, repl
             xml, n = re.subn(pattern, repl, xml)
             # print n
-            
+        
         output = codecs.open(output_filename, 'w', encoding='utf-8')
         output = codecs.open(output_filename, 'w', encoding='utf-8')
+        output.write(HEADER)
         output.write(xml)
 
         output.write(xml)