fixes
[wolnelektury.git] / src / catalogue / api / tojson.py
1 from collections import defaultdict
2 import json
3 import re
4 from sys import argv
5 from lxml import etree
6
7 tags = {
8     'utwor': ('_pass', False, None, None, None),
9     '{http://www.w3.org/1999/02/22-rdf-syntax-ns#}RDF': ('_ignore', False, None, None, None),
10     'abstrakt': ('_ignore', False, None, None, None),
11     'uwaga': ('_ignore', False, None, None, None),
12     'extra': ('_ignore', False, None, None, None),
13     'nota_red': ('_ignore', False, None, None, None),
14     'numeracja': ('_ignore', False, None, None, None),
15
16     'powiesc': ('master', False, None, None, None),
17     'opowiadanie': ('master', False, None, None, None),
18     'liryka_lp': ('master', False, None, None, None),
19     'liryka_l': ('master', False, None, None, None),
20     'dramat_wspolczesny': ('master', False, None, None, None),
21     'dramat_wierszowany_lp': ('master', False, None, None, None),
22     'dramat_wierszowany_l': ('master', False, None, None, None),
23
24     'dlugi_cytat': ('blockquote', False, None, None, None),
25     'poezja_cyt': ('blockquote', False, None, None, None),
26     'dlugi_cyt': ('blockquote', False, None, None, None),
27     'ramka': ('blockquote', False, {'class': 'ramka'}, None, None),
28     
29     'blok': ('div', False, None, None, None),
30
31     'strofa': ('div', True, {'class': 'stanza'}, None, None),
32     'wers': ('div', True, {'class': 'verse'}, None, None),
33     'wers_wciety': ('div', True, {'class': 'wers_wciety'}, None, None),
34     'wers_cd': ('div', True, {'class': 'wers_cd'}, None, None),
35     'wers_akap': ('div', True, {'class': 'wers_akap'}, None, None),
36     'zastepnik_wersu': ('div', True, {'class': 'zastepnik_wersu'}, None, None),
37     'wers_do_prawej': ('div', True, {'class': 'wers_do_prawej'}, None, None),
38     'wers_srodek': ('div', True, {'class': 'wers_srodek'}, None, None),
39     
40     'autor_utworu': ('div', True, {'class': 'author'}, None, None),
41     'dzielo_nadrzedne': ('div', True, {'class': 'dzielo_nadrzedne'}, None, None),
42     'nazwa_utworu': ('div', True, {'class': 'title'}, None, None),
43     'podtytul': ('div', True, {'class': 'podtytul'}, None, None),
44
45     'motto': ('div', False, {'class': 'motto'}, None, None),
46     'motto_podpis': ('div', True, {'class': 'motto_podpis'}, None, None),
47     'dedykacja': ('div', True, {'class': 'dedykacja'}, None, None),
48     'miejsce_czas': ('div', True, {'class': 'miejsce_czas'}, None, None),
49     
50     'lista_osob': ('div', False, {'class': 'lista_osob'}, None, None),
51     'naglowek_listy': ('div', True, {'class': 'naglowek_listy'}, None, None),
52     'lista_osoba': ('div', True, {'class': 'lista_osoba'}, None, None),
53     'naglowek_osoba': ('div', True, {'class': 'naglowek_osoba'}, None, None),
54     'osoba': ('em', True, {'class': 'osoba'}, None, None),
55     'didaskalia': ('div', True, {'class': 'didaskalia'}, None, None),
56     'kwestia': ('div', False, {'class': 'kwestia'}, None, None),
57     'didask_tekst': ('em', False, {'class': 'didask_tekst'}, None, None),
58     
59     'naglowek_czesc': ('h2', True, None, None, None),
60     'naglowek_akt': ('h2', True, None, None, None),
61     'naglowek_scena': ('h3', True, None, None, None),
62     'naglowek_rozdzial': ('h3', True, None, None, None),
63     'naglowek_podrozdzial': ('h4', True, None, None, None),
64     'srodtytul': ('h5', True, None, None, None),
65
66     'nota': ('div', True, {'class': 'note'}, None, False),
67
68     'akap': ('p', True, {'class': 'paragraph'}, None, True),
69     'akap_dialog': ('p', True, {'class': 'paragraph'}, None, True),
70     'akap_cd': ('p', True, {'class': 'paragraph'}, None, True),
71
72     'sekcja_asterysk': ('p', True, {'class': 'spacer-asterisk'}, None, True),
73     'sekcja_swiatlo': ('p', True, {'class': 'sekcja_swiatlo'}, None, True),
74     'separator_linia': ('p', True, {'class': 'separator_linia'}, None, True),
75
76     'tytul_dziela': ('em', True, {'class': 'book-title'}, None, False),
77     'slowo_obce': ('em', True, {'class': 'foreign-word'}, None, False),
78     'wyroznienie': ('em', True, {'class': 'author-emphasis'}, None, False),
79     'wieksze_odstepy': ('em', True, {'class': 'wieksze_odstepy'}, None, False),
80
81     'ref': ('a', True, {'class': 'reference'}, {'data-uri': 'href'}, False),
82
83     'begin': ('_ignore', True, {'class': 'reference'}, {'data-uri': 'href'}, False),
84     'end': ('_ignore', True, {'class': 'reference'}, {'data-uri': 'href'}, False),
85     'motyw': ('_ignore', True, {'class': 'theme'}, None, False),
86
87     'pa': ('a', True, {'class': 'footnote footnote-pa'}, None, False),
88     'pe': ('a', True, {'class': 'footnote footnote-pe'}, None, False),
89     'pr': ('a', True, {'class': 'footnote footnote-pr'}, None, False),
90     'pt': ('a', True, {'class': 'footnote footnote-pt'}, None, False),
91     'ptrad': ('a', True, {'class': 'footnote footnote-ptrad'}, None, False),
92
93     'werset': ('p', True, {'class': 'werset'}, None, True),
94     'br': ('br', False, None, None, None),
95     'indeks_dolny': ('em', True, {'class': 'indeks_dolny'}, None, False),
96     'mat': ('span', True, {'class': 'mat'}, None, False),
97 }
98
99 id_prefixes = {
100     'pa': 'fn',
101     'pe': 'fn',
102     'pr': 'fn',
103     'pt': 'fn',
104     'ptrad': 'fn',
105     'wers': 'f',
106     'wers_wciety': 'f',
107     'wers_cd': 'f',
108     'wers_akap': 'f',
109     'zastepnik_wersu': 'f',
110     'wers_do_prawej': 'f',
111     'wers_srodek': 'f',
112     'akap': 'f',
113     'akap_cd': 'f',
114     'akap_dialog': 'f',
115 }
116
117
118 #tree = etree.parse(argv[1])
119
120 front1 = set([
121     'dzielo_nadrzedne',
122     'nazwa_utworu',
123     'podtytul',
124     ])
125 front2 = set(['autor_utworu'])
126
127
128 def norm(text):
129     text = text.replace('---', '—').replace('--', '–').replace('...', '…').replace(',,', '„').replace('"', '”').replace('\n', ' ')
130     return text
131
132
133 def toj(elem, S):
134     if elem.tag is etree.Comment: return []
135     tag, hastext, attrs, attr_map, num = tags[elem.tag]
136     contents = []
137     if tag == '_pass':
138         output = contents
139     elif tag == '_ignore':
140         return []
141     else:
142         output = {
143             'tag': tag,
144         }
145         if num:
146             S['index'] += 1
147             output['paragraphIndex'] = S['index']
148             if 'dlugi_cytat' not in S['stack'] and 'poezja_cyt' not in S['stack']:
149                 S['vindex'] += 1
150                 output['visibleNumber'] = S['vindex']
151         id_prefix = id_prefixes.get(elem.tag, 'i')
152         S['id'][id_prefix] += 1
153         output['id'] = id_prefix + str(S['id'][id_prefix])
154         if elem.attrib.get('id'):
155             output['id'] = 'wl-' + elem.attrib.get('id')
156         if attrs:
157             output['attr'] = attrs.copy()
158         if attr_map:
159             output.setdefault('attr', {})
160             for k, v in attr_map.items():
161                 output['attr'][k] = elem.attrib[v]
162         output['contents'] = contents
163         output = [output]
164     if elem.tag == 'strofa':
165         verses = [etree.Element('wers')]
166         if elem.text:
167             vparts = re.split(r'/\s+', elem.text)
168             for i, v in enumerate(vparts):
169                 if i:
170                     verses.append(etree.Element('wers'))
171                 verses[-1].text = (verses[-1].text or '') + v
172         for child in elem:
173             vparts = re.split(r'/\s+', child.tail or '')
174             child.tail = vparts[0]
175             verses[-1].append(child)
176             for v in vparts[1:]:
177                 verses.append(etree.Element('wers'))
178                 verses[-1].text = v
179
180         if not(len(verses[-1]) or (verses[-1].text or '').strip()):
181             verses.pop()
182
183         elem.clear(keep_tail=True)
184         for verse in verses:
185             if len(verse) == 1 and (verse[0].tag.startswith('wers') or verse[0].tag == 'zastepnik_wersu') and not (verse[0].tail or '').strip():
186                 elem.append(verse[0])
187             else:
188                 elem.append(verse)
189
190         #if not len(elem):
191         #    for v in re.split(r'/\s+', elem.text):
192         #        etree.SubElement(elem, 'wers').text = v
193         #    elem.text = None
194         
195     if hastext and elem.text:
196         contents.append(norm(elem.text))
197     for c in elem:
198         S['stack'].append(elem.tag)
199         contents += toj(c, S)
200         if hastext and c.tail:
201             contents.append(norm(c.tail))
202         S['stack'].pop()
203
204     if elem.tag in front1:
205         S['front1'] += output
206         return []
207     if elem.tag in front2:
208         S['front2'] += output
209         return []
210     return output
211
212 def conv(tree):
213     S = {
214         'index': 0,
215         'vindex': 0,
216         'id': defaultdict(lambda: 0),
217         'stack': [],
218         'front1': [],
219         'front2': [],
220     }
221     output = toj(tree.getroot(), S)
222     if not len(output): return {}
223     jt = output[0]
224     jt['front1'] = S['front1']
225     jt['front2'] = S['front2']
226     return jt
227
228 #print(json.dumps(jt, indent=2, ensure_ascii=False))