parse.py

   1 #!/usr/bin/env python
   2 from __future__ import unicode_literals
   3 import json
   4 import os
   5 import re
   6 from urllib import unquote
   7 from urllib2 import urlopen
   8 from lxml.html import etree
   9 from slugify import slugify
  10
  11
  12 fin = urlopen('http://ofop.redakcja.wolnelektury.pl/documents/book/kurs-ip-dla-uniwersytetow/html')
  13 parser = etree.HTMLParser()
  14 tree = etree.parse(fin, parser)
  15
  16 root = tree.xpath("//div[@id='book-text']")[0]
  17 rozdzial = None
  18 podrozdzial = None
  19 podrozdzial_n = 0
  20
  21 def remove_tag(tag):
  22     parent = tag.getparent()
  23     if tag.tail:
  24         prev = tag.getprevious()
  25         if prev is not None:
  26             prev.tail = (prev.tail or '') + tag.tail
  27         else:
  28             parent.text = (parent.text or '') + tag.tail
  29     parent.remove(tag)
  30
  31
  32 def spojniki(text):
  33     return re.sub(r'(\s|^)(\w)\s+', r'\1\2\u00a0', text)
  34
  35 for tag in root.iter():
  36     if tag.text:
  37         tag.text = spojniki(tag.text)
  38     if tag.tail:
  39         tag.tail = spojniki(tag.tail)
  40
  41 for ilustr in root.findall('.//img'):
  42     if not ilustr.attrib['src'].endswith(('.png', '.jpg')):
  43         ilustr.attrib['src'] = ilustr.attrib['src'].rsplit('.', 1)[0] + '.jpg'
  44     ilustr.attrib['src'] = "{{ media_url('/ilustr/" + unquote(ilustr.attrib['src']) + "') }}"
  45 for target in root.findall(".//a[@class='target']"):
  46     remove_tag(target)
  47 for target in root.findall(".//a[@class='anchor']"):
  48     remove_tag(target)
  49 for target in root.findall(".//a"):
  50     if target.attrib.get('class', '').startswith('sec'):
  51         remove_tag(target)
  52
  53 for target in root.findall(".//punkt"):
  54     if target.getparent().tag not in ('ol', 'ul'):
  55         print etree.tostring(target)
  56 for target in root.findall(".//ol/*"):
  57     if target.tag != 'li':
  58         print etree.tostring(target)
  59 for target in root.findall(".//ul/*"):
  60     if target.tag != 'li':
  61         print etree.tostring(target)
  62 for target in root.findall(".//table/*"):
  63     if target.tag != 'tr':
  64         print etree.tostring(target)
  65 for target in root.findall(".//tr"):
  66     if target.getparent().tag != 'table':
  67         print etree.tostring(target)
  68 for target in root.findall(".//tr/*"):
  69     if target.tag != 'td':
  70         print etree.tostring(target)
  71 for target in root.findall(".//td"):
  72     if target.getparent().tag != 'tr':
  73         print etree.tostring(target)
  74
  75 for tag in root:
  76     if tag.tag == 'h2':
  77         print etree.tostring(tag)
  78         rozdzial = slugify(tag.text)
  79         dir_rozdzial = 'content/import/%s' % rozdzial
  80         if os.path.exists(dir_rozdzial):
  81             for f in os.listdir(dir_rozdzial):
  82                 if f.endswith('.html'):
  83                     os.unlink('%s/%s' % (dir_rozdzial, f))
  84         else:
  85             os.makedirs(dir_rozdzial)
  86         podrozdzial = None
  87         podrozdzial_n = 0
  88     elif tag.tag == 'h3':
  89         tytul = tag.text
  90         tytul = re.sub('^[0-9\. ]+', '', tytul).strip()
  91         slug = slugify(tytul.split(':')[0])
  92         if podrozdzial:
  93             podrozdzial.close()
  94         podrozdzial_n += 1
  95         podrozdzial = open('%s/%s.html' % (dir_rozdzial, slug), 'w')
  96         podrozdzial.write((u'''---
  97 title: "%s"
  98 section: %s
  99 listable: true
 100 extends: text.j2
 101 default_block: main
 102 order: %d
 103 ---
 104
 105 ''' % (tytul, rozdzial, podrozdzial_n)).encode('utf-8'))
 106     elif podrozdzial:
 107         if tag.tag == 'h4':
 108             tag.text = re.sub('^[0-9\. ]+', '', tag.text).strip()
 109             tag.tag = 'h2'
 110             slug = slugify(tag.text)
 111             etree.SubElement(tag, "a", {'class': 'permalink',
 112                 'id': slug, 'href': '#' + slug,
 113                 'title': 'Link do tego miejsca'})
 114         elif tag.tag == 'h5':
 115             tag.text = re.sub('^[0-9\. ]+', '', tag.text).strip()
 116             tag.tag = 'h3'
 117         podrozdzial.write(etree.tostring(tag, encoding='utf-8'))
 118
 119 if podrozdzial:
 120     podrozdzial.close()