X-Git-Url: https://git.mdrn.pl/wolnelektury.git/blobdiff_plain/2903250a90904488ff3de04ecbbf2b6b5c421839..f49f480ec083dbd9300b354c1730bdae564beaf0:/lib/librarian/bin/book2txt.py
diff --git a/lib/librarian/bin/book2txt.py b/lib/librarian/bin/book2txt.py
index 86f6f1274..d3c2d0121 100755
--- a/lib/librarian/bin/book2txt.py
+++ b/lib/librarian/bin/book2txt.py
@@ -5,16 +5,34 @@ import os
import optparse
import codecs
+from librarian import dcparser
+
+
+HEADER = u"""\
+Kodowanie znaków w dokumencie: UTF-8.
+-----
+Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez
+BibliotekÄ NarodowÄ
z egzemplarza pochodzÄ
cego ze zbiorów BN. Ten utwór nie jest chroniony prawem autorskim i znajduje
+siÄ w domenie publicznej, co oznacza, że możesz go swobodnie wykorzystywaÄ, publikowaÄ i rozpowszechniaÄ.
+
+Wersja lektury w opracowaniu merytorycznym i krytycznym (przypisy i motywy) dostÄpna jest na stronie %s.
+-----
+
+"""
+
+def get_header(filename):
+ return HEADER % dcparser.parse(filename).url
+
REGEXES = [
(r'
(.|\n)*?
', ''), + (r'(.|\n)*?
', ''), (r'<[^>]+>', ''), - (r'/$', ''), + (r'/\n', '\n'), (r'---', u'â'), (r'--', u'-'), (r',,', u'â'), @@ -47,10 +65,9 @@ if __name__ == '__main__': xml = codecs.open(input_filename, 'r', encoding='utf-8').read() for pattern, repl in REGEXES: - # print pattern, repl xml, n = re.subn(pattern, repl, xml) - # print n - + output = codecs.open(output_filename, 'w', encoding='utf-8') + output.write(get_header(input_filename)) output.write(xml)