X-Git-Url: https://git.mdrn.pl/wolnelektury.git/blobdiff_plain/f49f480ec083dbd9300b354c1730bdae564beaf0..40b0da924b62ba147588a945718b71dc36ed3702:/lib/librarian/bin/book2txt.py?ds=sidebyside
diff --git a/lib/librarian/bin/book2txt.py b/lib/librarian/bin/book2txt.py
index d3c2d0121..1ca4623fd 100755
--- a/lib/librarian/bin/book2txt.py
+++ b/lib/librarian/bin/book2txt.py
@@ -1,43 +1,8 @@
#!/usr/bin/env python
-# -*- coding: utf-8 -*-
-import re
import os
import optparse
-import codecs
-from librarian import dcparser
-
-
-HEADER = u"""\
-Kodowanie znaków w dokumencie: UTF-8.
------
-Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez
-BibliotekÄ NarodowÄ
z egzemplarza pochodzÄ
cego ze zbiorów BN. Ten utwór nie jest chroniony prawem autorskim i znajduje
-siÄ w domenie publicznej, co oznacza, że możesz go swobodnie wykorzystywaÄ, publikowaÄ i rozpowszechniaÄ.
-
-Wersja lektury w opracowaniu merytorycznym i krytycznym (przypisy i motywy) dostÄpna jest na stronie %s.
------
-
-"""
-
-def get_header(filename):
- return HEADER % dcparser.parse(filename).url
-
-
-REGEXES = [
- (r'
(.|\n)*?
', ''), - (r'<[^>]+>', ''), - (r'/\n', '\n'), - (r'---', u'â'), - (r'--', u'-'), - (r',,', u'â'), - (r'"', u'â'), -] +from librarian import text if __name__ == '__main__': @@ -62,12 +27,5 @@ if __name__ == '__main__': print input_filename output_filename = os.path.splitext(input_filename)[0] + '.txt' - - xml = codecs.open(input_filename, 'r', encoding='utf-8').read() - for pattern, repl in REGEXES: - xml, n = re.subn(pattern, repl, xml) - - output = codecs.open(output_filename, 'w', encoding='utf-8') - output.write(get_header(input_filename)) - output.write(xml) + text.transform(input_filename, output_filename)