X-Git-Url: https://git.mdrn.pl/wolnelektury.git/blobdiff_plain/2903250a90904488ff3de04ecbbf2b6b5c421839..0d8379f12396769a2238c6c9e25532db6434b818:/lib/librarian/bin/book2txt.py diff --git a/lib/librarian/bin/book2txt.py b/lib/librarian/bin/book2txt.py index 86f6f1274..4ad787941 100755 --- a/lib/librarian/bin/book2txt.py +++ b/lib/librarian/bin/book2txt.py @@ -6,15 +6,25 @@ import optparse import codecs +HEADER = u""" +----- +Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez BibliotekÄ NarodowÄ z egzemplarza pochodzÄ cego ze zbiorów BN. +Ten utwór nie jest chroniony prawem autorskim i znajduje siÄ w domenie publicznej, co oznacza, że możesz go swobodnie wykorzystywaÄ, publikowaÄ i rozpowszechniaÄ. +ŹródÅo: +----- + +""" + + REGEXES = [ (r'<rdf:RDF[^>]*>(.|\n)*?</rdf:RDF>', ''), (r'<motyw[^>]*>(.|\n)*?</motyw>', ''), ('<(begin|end)\\sid=[\'|"][b|e]\\d+[\'|"]\\s/>', ''), (r'<extra>((<!--<(elementy_poczatkowe|tekst_glowny)>-->)|(<!--</(elementy_poczatkowe|tekst_glowny)>-->))</extra>', ''), - (r'<uwaga>[^<]*</uwaga>', ''), - (r'<p[a|e|r|t]>(.|\n)*?</p>', ''), + (r'<uwaga>(.|\n)*?</uwaga>', ''), + (r'<p[a|e|r|t]>(.|\n)*?</p[a|e|r|t]>', ''), (r'<[^>]+>', ''), - (r'/$', ''), + (r'/\n', '\n'), (r'---', u'â'), (r'--', u'-'), (r',,', u'â'), @@ -50,7 +60,8 @@ if __name__ == '__main__': # print pattern, repl xml, n = re.subn(pattern, repl, xml) # print n - + output = codecs.open(output_filename, 'w', encoding='utf-8') + output.write(HEADER) output.write(xml)