filtered chunks table,
[redakcja.git] / apps / catalogue / xml_tools.py
1 from functools import wraps
2 import re
3
4 from lxml import etree
5 from catalogue.constants import TRIM_BEGIN, TRIM_END, MASTERS
6
7 RE_TRIM_BEGIN = re.compile("^<!--%s-->$" % TRIM_BEGIN, re.M)
8 RE_TRIM_END = re.compile("^<!--%s-->$" % TRIM_END, re.M)
9
10
11 class ParseError(BaseException):
12     pass
13
14
15 def obj_memoized(f):
16     """
17         A decorator that caches return value of object methods.
18         The cache is kept with the object, in a _obj_memoized property.
19     """
20     @wraps(f)
21     def wrapper(self, *args, **kwargs):
22         if not hasattr(self, '_obj_memoized'):
23             self._obj_memoized = {}
24         key = (f.__name__,) + args + tuple(sorted(kwargs.iteritems()))
25         try:
26             return self._obj_memoized[key]
27         except TypeError:
28             return f(self, *args, **kwargs)
29         except KeyError:
30             self._obj_memoized[key] = f(self, *args, **kwargs)
31             return self._obj_memoized[key]
32     return wrapper
33
34
35 class GradedText(object):
36     _edoc = None
37
38     ROOT = 'utwor'
39     RDF = '{http://www.w3.org/1999/02/22-rdf-syntax-ns#}RDF'
40
41     def __init__(self, text):
42         self._text = text
43
44     @obj_memoized
45     def is_xml(self):
46         """
47             Determines if it's a well-formed XML.
48
49             >>> GradedText("<a/>").is_xml()
50             True
51             >>> GradedText("<a>").is_xml()
52             False
53         """
54         try:
55             self._edoc = etree.fromstring(self._text)
56         except etree.XMLSyntaxError:
57             return False
58         return True
59
60     @obj_memoized
61     def is_wl(self):
62         """
63             Determines if it's an XML with a <utwor> and a master tag.
64
65             >>> GradedText("<utwor><powiesc></powiesc></utwor>").is_wl()
66             True
67             >>> GradedText("<a></a>").is_wl()
68             False
69         """
70         if self.is_xml():
71             e = self._edoc
72             # FIXME: there could be comments
73             ret = e.tag == self.ROOT and (
74                 len(e) == 1 and e[0].tag in MASTERS or
75                 len(e) == 2 and e[0].tag == self.RDF 
76                     and e[1].tag in MASTERS)
77             if ret:
78                 self._master = e[-1].tag
79             del self._edoc
80             return ret
81         else:
82             return False
83
84     @obj_memoized
85     def is_broken_wl(self):
86         """
87             Determines if it at least looks like broken WL file
88             and not just some untagged text.
89
90             >>> GradedText("<utwor><</utwor>").is_broken_wl()
91             True
92             >>> GradedText("some text").is_broken_wl()
93             False
94         """
95         if self.is_wl():
96             return True
97         text = self._text.strip()
98         return text.startswith('<utwor>') and text.endswith('</utwor>')
99
100     def master(self):
101         """
102             Gets the master tag.
103
104             >>> GradedText("<utwor><powiesc></powiesc></utwor>").master()
105             'powiesc'
106         """
107         assert self.is_wl()
108         return self._master
109
110     @obj_memoized
111     def has_trim_begin(self):
112         return RE_TRIM_BEGIN.search(self._text)
113
114     @obj_memoized
115     def has_trim_end(self):
116         return RE_TRIM_END.search(self._text)
117
118
119 def _trim(text, trim_begin=True, trim_end=True):
120     """ 
121         Cut off everything before RE_TRIM_BEGIN and after RE_TRIM_END, so
122         that eg. one big XML file can be compiled from many small XML files.
123     """
124     if trim_begin:
125         text = RE_TRIM_BEGIN.split(text, maxsplit=1)[-1]
126     if trim_end:
127         text = RE_TRIM_END.split(text, maxsplit=1)[0]
128     return text
129
130
131 def compile_text(parts):
132     """ 
133         Compiles full text from an iterable of parts,
134         trimming where applicable.
135     """
136     texts = []
137     trim_begin = False
138     text = ''
139     for next_text in parts:
140         if not next_text:
141             continue
142         # trim the end, because there's more non-empty text
143         # don't trim beginning, if `text' is the first non-empty part
144         texts.append(_trim(text, trim_begin=trim_begin))
145         trim_begin = True
146         text = next_text
147     # don't trim the end, because there's no more text coming after `text'
148     # only trim beginning if it's not still the first non-empty
149     texts.append(_trim(text, trim_begin=trim_begin, trim_end=False))
150     return "".join(texts)
151
152
153 def change_master(text, master):
154     """
155         Changes the master tag in a WL document.
156     """
157     e = etree.fromstring(text)
158     e[-1].tag = master
159     return etree.tostring(e, encoding="utf-8")
160
161
162 def basic_structure(text, master):
163     e = etree.fromstring('''<utwor>
164 <master>
165 <!--%s--><!--%s-->
166 </master>
167 </utwor>''' % (TRIM_BEGIN, TRIM_END))
168     e[0].tag = master
169     e[0][0].tail = "\n"*3 + text + "\n"*3
170     return etree.tostring(e, encoding="utf-8")
171
172
173 def add_trim_begin(text):
174     trim_tag = etree.Comment(TRIM_BEGIN)
175     e = etree.fromstring(text)
176     for master in e[::-1]:
177         if master.tag in MASTERS:
178             break
179     if master.tag not in MASTERS:
180         raise ParseError('No master tag found!')
181
182     master.insert(0, trim_tag)
183     trim_tag.tail = '\n\n\n' + (master.text or '')
184     master.text = '\n'
185     return etree.tostring(e, encoding="utf-8")
186
187
188 def add_trim_end(text):
189     trim_tag = etree.Comment(TRIM_END)
190     e = etree.fromstring(text)
191     for master in e[::-1]:
192         if master.tag in MASTERS:
193             break
194     if master.tag not in MASTERS:
195         raise ParseError('No master tag found!')
196
197     master.append(trim_tag)
198     trim_tag.tail = '\n'
199     prev = trim_tag.getprevious()
200     if prev is not None:
201         prev.tail = (prev.tail or '') + '\n\n\n'
202     else:
203         master.text = (master.text or '') + '\n\n\n'
204     return etree.tostring(e, encoding="utf-8")