import codecs
+HEADER = u"""\
+Kodowanie znaków w dokumencie: UTF-8.
+-----
+Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez
+Bibliotekę Narodową z egzemplarza pochodzącego ze zbiorów BN. Ten utwór nie jest chroniony prawem autorskim i znajduje
+się w domenie publicznej, co oznacza, że możesz go swobodnie wykorzystywać, publikować i rozpowszechniać.
+-----
+
+"""
+
+
REGEXES = [
(r'<rdf:RDF[^>]*>(.|\n)*?</rdf:RDF>', ''),
(r'<motyw[^>]*>(.|\n)*?</motyw>', ''),
('<(begin|end)\\sid=[\'|"][b|e]\\d+[\'|"]\\s/>', ''),
(r'<extra>((<!--<(elementy_poczatkowe|tekst_glowny)>-->)|(<!--</(elementy_poczatkowe|tekst_glowny)>-->))</extra>', ''),
- (r'<uwaga>[^<]*</uwaga>', ''),
- (r'<p[a|e|r|t]>(.|\n)*?</p>', ''),
+ (r'<uwaga>(.|\n)*?</uwaga>', ''),
+ (r'<p[a|e|r|t]>(.|\n)*?</p[a|e|r|t]>', ''),
(r'<[^>]+>', ''),
- (r'/$', ''),
+ (r'/\n', '\n'),
(r'---', u'—'),
(r'--', u'-'),
(r',,', u'„'),
# print pattern, repl
xml, n = re.subn(pattern, repl, xml)
# print n
-
+
output = codecs.open(output_filename, 'w', encoding='utf-8')
+ output.write(HEADER)
output.write(xml)