X-Git-Url: https://git.mdrn.pl/wolnelektury.git/blobdiff_plain/f8228cc6712f9a71f877b0ea60719c256519f16e..f49f480ec083dbd9300b354c1730bdae564beaf0:/lib/librarian/bin/book2txt.py diff --git a/lib/librarian/bin/book2txt.py b/lib/librarian/bin/book2txt.py index 413ff674b..d3c2d0121 100755 --- a/lib/librarian/bin/book2txt.py +++ b/lib/librarian/bin/book2txt.py @@ -5,6 +5,24 @@ import os import optparse import codecs +from librarian import dcparser + + +HEADER = u"""\ +Kodowanie znaków w dokumencie: UTF-8. +----- +Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez +Bibliotekę Narodową z egzemplarza pochodzącego ze zbiorów BN. Ten utwór nie jest chroniony prawem autorskim i znajduje +się w domenie publicznej, co oznacza, że możesz go swobodnie wykorzystywać, publikować i rozpowszechniać. + +Wersja lektury w opracowaniu merytorycznym i krytycznym (przypisy i motywy) dostępna jest na stronie %s. +----- + +""" + +def get_header(filename): + return HEADER % dcparser.parse(filename).url + REGEXES = [ (r']*>(.|\n)*?', ''), @@ -14,7 +32,7 @@ REGEXES = [ (r'(.|\n)*?', ''), (r'(.|\n)*?', ''), (r'<[^>]+>', ''), - (r'/\n', ''), + (r'/\n', '\n'), (r'---', u'—'), (r'--', u'-'), (r',,', u'„'), @@ -47,10 +65,9 @@ if __name__ == '__main__': xml = codecs.open(input_filename, 'r', encoding='utf-8').read() for pattern, repl in REGEXES: - # print pattern, repl xml, n = re.subn(pattern, repl, xml) - # print n - + output = codecs.open(output_filename, 'w', encoding='utf-8') + output.write(get_header(input_filename)) output.write(xml)