X-Git-Url: https://git.mdrn.pl/wolnelektury.git/blobdiff_plain/44eab50197af905e0099802c50e37eb8481481c1..7de20e55458c4f2bc4e0322b64022d3b45656f5d:/lib/librarian/bin/book2txt.py?ds=sidebyside diff --git a/lib/librarian/bin/book2txt.py b/lib/librarian/bin/book2txt.py index 4ad787941..1ca4623fd 100755 --- a/lib/librarian/bin/book2txt.py +++ b/lib/librarian/bin/book2txt.py @@ -1,35 +1,8 @@ #!/usr/bin/env python -# -*- coding: utf-8 -*- -import re import os import optparse -import codecs - -HEADER = u""" ------ -Publikacja zrealizowana w ramach projektu Wolne Lektury (http://wolnelektury.pl/). Reprodukcja cyfrowa wykonana przez Bibliotekę Narodową z egzemplarza pochodzącego ze zbiorów BN. -Ten utwór nie jest chroniony prawem autorskim i znajduje się w domenie publicznej, co oznacza, że możesz go swobodnie wykorzystywać, publikować i rozpowszechniać. -Źródło: ------ - -""" - - -REGEXES = [ - (r']*>(.|\n)*?', ''), - (r']*>(.|\n)*?', ''), - ('<(begin|end)\\sid=[\'|"][b|e]\\d+[\'|"]\\s/>', ''), - (r'(()|())', ''), - (r'(.|\n)*?', ''), - (r'(.|\n)*?', ''), - (r'<[^>]+>', ''), - (r'/\n', '\n'), - (r'---', u'—'), - (r'--', u'-'), - (r',,', u'„'), - (r'"', u'”'), -] +from librarian import text if __name__ == '__main__': @@ -54,14 +27,5 @@ if __name__ == '__main__': print input_filename output_filename = os.path.splitext(input_filename)[0] + '.txt' - - xml = codecs.open(input_filename, 'r', encoding='utf-8').read() - for pattern, repl in REGEXES: - # print pattern, repl - xml, n = re.subn(pattern, repl, xml) - # print n - - output = codecs.open(output_filename, 'w', encoding='utf-8') - output.write(HEADER) - output.write(xml) + text.transform(input_filename, output_filename)