# Cython директива для обеспечения использования синтаксиса строк Python 3 # cython: language_level=3str """Инструмент для очистки HTML. Удаляет нежелательные теги и содержимое. Подробнее см. в классе `Cleaner`. """ import copy import re from urllib.parse import urlsplit, unquote_plus from lxml import etree from lxml.html import defs from lxml.html import fromstring as lxml_fromstring, XHTML_NAMESPACE from lxml.html import xhtml_to_html, _transform_result __all__ = ['clean_html', 'clean', 'Cleaner', 'autolink', 'autolink_html', 'word_break', 'word_break_html'] # Look at http://code.sixapart.com/trac/livejournal/browser/trunk/cgi-bin/cleanhtml.pl # Particularly the CSS cleaning; most of the tag cleaning is integrated now # I have multiple kinds of schemes searched; but should schemes be # whitelisted instead? # max height? # remove images? Also in CSS? background attribute? # Some way to whitelist object, iframe, etc (e.g., if you want to # allow *just* embedded YouTube movies) # Log what was deleted and why? # style="behavior: ..." might be bad in IE? # Should we have something for just ? That's the worst of the # metas. # UTF-7 detections? Example: # +ADw-SCRIPT+AD4-alert('XSS');+ADw-/SCRIPT+AD4- # you don't always have to have the charset set, if the page has no charset # and there's UTF7-like code in it. # Look at these tests: http://htmlpurifier.org/live/smoketests/xssAttacks.php # This is an IE-specific construct you can have in a stylesheet to # run some Javascript: _replace_css_javascript = re.compile( r'expression\s*\(.*?\)', re.S|re.I).sub # Регулярное выражение для удаления CSS-директив `@import` _replace_css_import = re.compile( r'@\s*import', re.I).sub # Регулярное выражение для определения содержания, которое может являться HTML-тегом _looks_like_tag_content = re.compile( r' safe_image_urls # Регулярное выражение для замены пробельных символов и управляющих символов ASCII _substitute_whitespace = re.compile(r'[\s\x00-\x08\x0B\x0C\x0E-\x19]+').sub # FIXME: check against: http://msdn2.microsoft.com/en-us/library/ms537512.aspx _conditional_comment_re = re.compile( r'\[if[\s\n\r]+.*?][\s\n\r]*>', re.I|re.S) # XPath выражение для поиска элементов с атрибутом style _find_styled_elements = etree.XPath( "descendant-or-self::*[@style]") # XPath выражение для поиска внешних ссылок _find_external_links = etree.XPath( ("descendant-or-self::a [normalize-space(@href) and substring(normalize-space(@href),1,1) != '#'] |" "descendant-or-self::x:a[normalize-space(@href) and substring(normalize-space(@href),1,1) != '#']"), namespaces={'x':XHTML_NAMESPACE}) # Регулярное выражение для удаления всех управляющих символов ASCII (00-1F,7F), за исключением: # - 09 - горизонтальная табуляция # - 0A - перевод строки # - 0B - вертикальная табуляция # - 0D - возврат каретки _ascii_control_characters = re.compile(r"[\x00-\x08\x0C\x0E-\x1F\x7F]") def fromstring(string): """ Расширенная функция fromstring, которая удаляет управляющие символы ASCII перед передачей входных данных в оригинальную функцию lxml.html.fromstring. """ from lxml import html parser = html.HTMLParser(huge_tree=True, recover=True) return lxml_fromstring(_ascii_control_characters.sub("", string), parser=parser) class Cleaner: """ Экземпляры этого класса очищают документ от возможных опасных элементов. Очистка управляется атрибутами; можно переопределить атрибуты в подклассе или задать их в конструкторе. ``scripts``: Удаляет любые теги ``