Fixed style of scraping components and moved them to submodule 'scraping'

7 years ago · fdc370f656
261 changed files with 97 additions and 87 deletions
--- a/restscrape/cache.py
+++ b/restscrape/cache.py
@ -1,17 +0,0 @@
-from datetime import timedelta,datetime
-import sqlite3
-
-class cache:
-    def __init__(self,cache_path="page_cache.db",interval=datetime.timedelta(days=1)):
-        self.con = sqlite3.connect(cache_path)
-        self.cur = self.con.cursor()
-        self.cur.execute('''\
-            create table if not exists `pages`(
-                 `url` text primary key,
-                 `page_source` text,
-                `datetime` datetime,
-             );
-              '''
-        )
-
-
--- a/restscrape/scraper.py
+++ b/restscrape/scraper.py
@ -1,34 +0,0 @@
-import lxml.etree
-class scraper:
-
-    def __init__(self,page_source):
-        if not isinstance(page_source,lxml.etree._Element):
-            page_source = lxml.etree.HTML(page_source)
-        self.page_source = page_source
-
-    def xpath(self,expr):
-        return self.page_source.xpath(expr)
-
-    def extract_table(self,table,header_xpath,rows_xpath):
-        if not isinstance(table,lxml.etree._Element):
-            table = self.xpath(table)[0]
-        header = table.xpath(header_xpath)[0]
-        headers = list(element.text.lower() for element in header.findall('th'))
-        for row in table.xpath(rows_xpath)[0].findall('tr'):
-            yield dict(zip(headers,(data.text for data in row.findall('td'))))
-
-    def label_convert(self,labels,raw_tags = False):
-        ret = {}
-        for label,xpath in labels.items():
-            res = self.xpath(xpath)
-            if raw_tags:
-                ret[label] = list(lxml.etree.tostring(element, pretty_print=True) for element in res)
-            else:
-                ret[label] = list(element.text for element in res)
-
-        return ret
-
-def proxy_scraper(page_source):
-    page = scraper(page_source)
-    yield from page.extract_table(table="//table[@id='proxylisttable']",header_xpath="./thead/tr",rows_xpath="./tbody")
-
--- a/restscrape/scraping/init.py
+++ b/restscrape/scraping/init.py
--- a/restscrape/scraping/browser.py
+++ b/restscrape/scraping/browser.py
--- a/restscrape/scraping/proxy.py
+++ b/restscrape/scraping/proxy.py
--- a/restscrape/scraping/scraper.py
+++ b/restscrape/scraping/scraper.py
@ -0,0 +1,40 @@
+import lxml.etree
+
+
+class scraper:
+
+    def __init__(self, page_source):
+        if not isinstance(page_source, lxml.etree._Element):
+            page_source = lxml.etree.HTML(page_source)
+        self.page_source = page_source
+
+    def xpath(self, expr):
+        return self.page_source.xpath(expr)
+
+    def extract_table(self, table, header_xpath, rows_xpath):
+        if not isinstance(table, lxml.etree._Element):
+            table = self.xpath(table)[0]
+        header = table.xpath(header_xpath)[0]
+        headers = list(element.text.lower()
+                       for element in header.findall('th'))
+        for row in table.xpath(rows_xpath)[0].findall('tr'):
+            yield dict(zip(headers, (data.text for data in row.findall('td'))))
+
+    def label_convert(self, labels, raw_tags=False):
+        ret = {}
+        for label, xpath in labels.items():
+            res = self.xpath(xpath)
+            if raw_tags:
+                ret[label] = list(lxml.etree.tostring(
+                    element, pretty_print=True) for element in res)
+            else:
+                ret[label] = list(element.text for element in res)
+
+        return ret
+
+
+def proxy_scraper(page_source):
+    page = scraper(page_source)
+    yield from page.extract_table(
+        table="//table[@id='proxylisttable']",
+        header_xpath="./thead/tr", rows_xpath="./tbody")
--- a/restscrape/scraping/uBlock/1p-filters.html
+++ b/restscrape/scraping/uBlock/1p-filters.html
--- a/restscrape/scraping/uBlock/3p-filters.html
+++ b/restscrape/scraping/uBlock/3p-filters.html
--- a/restscrape/scraping/uBlock/LICENSE.txt
+++ b/restscrape/scraping/uBlock/LICENSE.txt
--- a/restscrape/scraping/uBlock/_locales/ar/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ar/messages.json
--- a/restscrape/scraping/uBlock/_locales/az/messages.json
+++ b/restscrape/scraping/uBlock/_locales/az/messages.json
--- a/restscrape/scraping/uBlock/_locales/bg/messages.json
+++ b/restscrape/scraping/uBlock/_locales/bg/messages.json
--- a/restscrape/scraping/uBlock/_locales/bn/messages.json
+++ b/restscrape/scraping/uBlock/_locales/bn/messages.json
--- a/restscrape/scraping/uBlock/_locales/ca/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ca/messages.json
--- a/restscrape/scraping/uBlock/_locales/cs/messages.json
+++ b/restscrape/scraping/uBlock/_locales/cs/messages.json
--- a/restscrape/scraping/uBlock/_locales/cv/messages.json
+++ b/restscrape/scraping/uBlock/_locales/cv/messages.json
--- a/restscrape/scraping/uBlock/_locales/da/messages.json
+++ b/restscrape/scraping/uBlock/_locales/da/messages.json
--- a/restscrape/scraping/uBlock/_locales/de/messages.json
+++ b/restscrape/scraping/uBlock/_locales/de/messages.json
--- a/restscrape/scraping/uBlock/_locales/el/messages.json
+++ b/restscrape/scraping/uBlock/_locales/el/messages.json
--- a/restscrape/scraping/uBlock/_locales/en/messages.json
+++ b/restscrape/scraping/uBlock/_locales/en/messages.json
--- a/restscrape/scraping/uBlock/_locales/eo/messages.json
+++ b/restscrape/scraping/uBlock/_locales/eo/messages.json
--- a/restscrape/scraping/uBlock/_locales/es/messages.json
+++ b/restscrape/scraping/uBlock/_locales/es/messages.json
--- a/restscrape/scraping/uBlock/_locales/et/messages.json
+++ b/restscrape/scraping/uBlock/_locales/et/messages.json
--- a/restscrape/scraping/uBlock/_locales/eu/messages.json
+++ b/restscrape/scraping/uBlock/_locales/eu/messages.json
--- a/restscrape/scraping/uBlock/_locales/fa/messages.json
+++ b/restscrape/scraping/uBlock/_locales/fa/messages.json
--- a/restscrape/scraping/uBlock/_locales/fi/messages.json
+++ b/restscrape/scraping/uBlock/_locales/fi/messages.json
--- a/restscrape/scraping/uBlock/_locales/fil/messages.json
+++ b/restscrape/scraping/uBlock/_locales/fil/messages.json
--- a/restscrape/scraping/uBlock/_locales/fr/messages.json
+++ b/restscrape/scraping/uBlock/_locales/fr/messages.json
--- a/restscrape/scraping/uBlock/_locales/fy/messages.json
+++ b/restscrape/scraping/uBlock/_locales/fy/messages.json
--- a/restscrape/scraping/uBlock/_locales/gl/messages.json
+++ b/restscrape/scraping/uBlock/_locales/gl/messages.json
--- a/restscrape/scraping/uBlock/_locales/he/messages.json
+++ b/restscrape/scraping/uBlock/_locales/he/messages.json
--- a/restscrape/scraping/uBlock/_locales/hi/messages.json
+++ b/restscrape/scraping/uBlock/_locales/hi/messages.json
--- a/restscrape/scraping/uBlock/_locales/hr/messages.json
+++ b/restscrape/scraping/uBlock/_locales/hr/messages.json
--- a/restscrape/scraping/uBlock/_locales/hu/messages.json
+++ b/restscrape/scraping/uBlock/_locales/hu/messages.json
--- a/restscrape/scraping/uBlock/_locales/id/messages.json
+++ b/restscrape/scraping/uBlock/_locales/id/messages.json
--- a/restscrape/scraping/uBlock/_locales/it/messages.json
+++ b/restscrape/scraping/uBlock/_locales/it/messages.json
--- a/restscrape/scraping/uBlock/_locales/ja/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ja/messages.json
--- a/restscrape/scraping/uBlock/_locales/ka/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ka/messages.json
--- a/restscrape/scraping/uBlock/_locales/kk/messages.json
+++ b/restscrape/scraping/uBlock/_locales/kk/messages.json
--- a/restscrape/scraping/uBlock/_locales/kn/messages.json
+++ b/restscrape/scraping/uBlock/_locales/kn/messages.json
--- a/restscrape/scraping/uBlock/_locales/ko/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ko/messages.json
--- a/restscrape/scraping/uBlock/_locales/lt/messages.json
+++ b/restscrape/scraping/uBlock/_locales/lt/messages.json
--- a/restscrape/scraping/uBlock/_locales/lv/messages.json
+++ b/restscrape/scraping/uBlock/_locales/lv/messages.json
--- a/restscrape/scraping/uBlock/_locales/ml/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ml/messages.json
--- a/restscrape/scraping/uBlock/_locales/mr/messages.json
+++ b/restscrape/scraping/uBlock/_locales/mr/messages.json
--- a/restscrape/scraping/uBlock/_locales/ms/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ms/messages.json
--- a/restscrape/scraping/uBlock/_locales/nb/messages.json
+++ b/restscrape/scraping/uBlock/_locales/nb/messages.json
--- a/restscrape/scraping/uBlock/_locales/nl/messages.json
+++ b/restscrape/scraping/uBlock/_locales/nl/messages.json
--- a/restscrape/scraping/uBlock/_locales/no/messages.json
+++ b/restscrape/scraping/uBlock/_locales/no/messages.json
--- a/restscrape/scraping/uBlock/_locales/pl/messages.json
+++ b/restscrape/scraping/uBlock/_locales/pl/messages.json
--- a/restscrape/scraping/uBlock/_locales/pt_BR/messages.json
+++ b/restscrape/scraping/uBlock/_locales/pt_BR/messages.json
--- a/restscrape/scraping/uBlock/_locales/pt_PT/messages.json
+++ b/restscrape/scraping/uBlock/_locales/pt_PT/messages.json
--- a/restscrape/scraping/uBlock/_locales/ro/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ro/messages.json
--- a/restscrape/scraping/uBlock/_locales/ru/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ru/messages.json
--- a/restscrape/scraping/uBlock/_locales/sk/messages.json
+++ b/restscrape/scraping/uBlock/_locales/sk/messages.json
--- a/restscrape/scraping/uBlock/_locales/sl/messages.json
+++ b/restscrape/scraping/uBlock/_locales/sl/messages.json
--- a/restscrape/scraping/uBlock/_locales/sq/messages.json
+++ b/restscrape/scraping/uBlock/_locales/sq/messages.json
--- a/restscrape/scraping/uBlock/_locales/sr/messages.json
+++ b/restscrape/scraping/uBlock/_locales/sr/messages.json
--- a/restscrape/scraping/uBlock/_locales/sv/messages.json
+++ b/restscrape/scraping/uBlock/_locales/sv/messages.json
--- a/restscrape/scraping/uBlock/_locales/ta/messages.json
+++ b/restscrape/scraping/uBlock/_locales/ta/messages.json
--- a/restscrape/scraping/uBlock/_locales/te/messages.json
+++ b/restscrape/scraping/uBlock/_locales/te/messages.json
--- a/restscrape/scraping/uBlock/_locales/th/messages.json
+++ b/restscrape/scraping/uBlock/_locales/th/messages.json
--- a/restscrape/scraping/uBlock/_locales/tr/messages.json
+++ b/restscrape/scraping/uBlock/_locales/tr/messages.json
--- a/restscrape/scraping/uBlock/_locales/uk/messages.json
+++ b/restscrape/scraping/uBlock/_locales/uk/messages.json
--- a/restscrape/scraping/uBlock/_locales/vi/messages.json
+++ b/restscrape/scraping/uBlock/_locales/vi/messages.json
--- a/restscrape/scraping/uBlock/_locales/zh_CN/messages.json
+++ b/restscrape/scraping/uBlock/_locales/zh_CN/messages.json
--- a/restscrape/scraping/uBlock/_locales/zh_TW/messages.json
+++ b/restscrape/scraping/uBlock/_locales/zh_TW/messages.json
--- a/restscrape/scraping/uBlock/about.html
+++ b/restscrape/scraping/uBlock/about.html
--- a/restscrape/scraping/uBlock/advanced-settings.html
+++ b/restscrape/scraping/uBlock/advanced-settings.html
--- a/restscrape/scraping/uBlock/asset-viewer.html
+++ b/restscrape/scraping/uBlock/asset-viewer.html
--- a/restscrape/scraping/uBlock/assets/assets.json
+++ b/restscrape/scraping/uBlock/assets/assets.json
--- a/restscrape/scraping/uBlock/assets/thirdparties/easylist-downloads.adblockplus.org/easylist.txt
+++ b/restscrape/scraping/uBlock/assets/thirdparties/easylist-downloads.adblockplus.org/easylist.txt
--- a/restscrape/scraping/uBlock/assets/thirdparties/easylist-downloads.adblockplus.org/easyprivacy.txt
+++ b/restscrape/scraping/uBlock/assets/thirdparties/easylist-downloads.adblockplus.org/easyprivacy.txt
--- a/restscrape/scraping/uBlock/assets/thirdparties/mirror1.malwaredomains.com/files/README.md
+++ b/restscrape/scraping/uBlock/assets/thirdparties/mirror1.malwaredomains.com/files/README.md
--- a/restscrape/scraping/uBlock/assets/thirdparties/mirror1.malwaredomains.com/files/justdomains
+++ b/restscrape/scraping/uBlock/assets/thirdparties/mirror1.malwaredomains.com/files/justdomains
--- a/restscrape/scraping/uBlock/assets/thirdparties/pgl.yoyo.org/as/README.md
+++ b/restscrape/scraping/uBlock/assets/thirdparties/pgl.yoyo.org/as/README.md
--- a/restscrape/scraping/uBlock/assets/thirdparties/pgl.yoyo.org/as/serverlist
+++ b/restscrape/scraping/uBlock/assets/thirdparties/pgl.yoyo.org/as/serverlist
--- a/restscrape/scraping/uBlock/assets/thirdparties/publicsuffix.org/list/effective_tld_names.dat
+++ b/restscrape/scraping/uBlock/assets/thirdparties/publicsuffix.org/list/effective_tld_names.dat
--- a/restscrape/scraping/uBlock/assets/thirdparties/www.malwaredomainlist.com/hostslist/README.md
+++ b/restscrape/scraping/uBlock/assets/thirdparties/www.malwaredomainlist.com/hostslist/README.md
--- a/restscrape/scraping/uBlock/assets/thirdparties/www.malwaredomainlist.com/hostslist/hosts.txt
+++ b/restscrape/scraping/uBlock/assets/thirdparties/www.malwaredomainlist.com/hostslist/hosts.txt
--- a/restscrape/scraping/uBlock/assets/ublock/badware.txt
+++ b/restscrape/scraping/uBlock/assets/ublock/badware.txt
--- a/restscrape/scraping/uBlock/assets/ublock/experimental.txt
+++ b/restscrape/scraping/uBlock/assets/ublock/experimental.txt
--- a/restscrape/scraping/uBlock/assets/ublock/filters.txt
+++ b/restscrape/scraping/uBlock/assets/ublock/filters.txt
--- a/restscrape/scraping/uBlock/assets/ublock/privacy.txt
+++ b/restscrape/scraping/uBlock/assets/ublock/privacy.txt
--- a/restscrape/scraping/uBlock/assets/ublock/resource-abuse.txt
+++ b/restscrape/scraping/uBlock/assets/ublock/resource-abuse.txt
--- a/restscrape/scraping/uBlock/assets/ublock/resources.txt
+++ b/restscrape/scraping/uBlock/assets/ublock/resources.txt
--- a/restscrape/scraping/uBlock/assets/ublock/unbreak.txt
+++ b/restscrape/scraping/uBlock/assets/ublock/unbreak.txt
--- a/restscrape/scraping/uBlock/background.html
+++ b/restscrape/scraping/uBlock/background.html
--- a/restscrape/scraping/uBlock/cloud-ui.html
+++ b/restscrape/scraping/uBlock/cloud-ui.html
--- a/restscrape/scraping/uBlock/css/1p-filters.css
+++ b/restscrape/scraping/uBlock/css/1p-filters.css
--- a/restscrape/scraping/uBlock/css/3p-filters.css
+++ b/restscrape/scraping/uBlock/css/3p-filters.css
--- a/restscrape/scraping/uBlock/css/advanced-settings.css
+++ b/restscrape/scraping/uBlock/css/advanced-settings.css
--- a/restscrape/scraping/uBlock/css/benchmarks.css
+++ b/restscrape/scraping/uBlock/css/benchmarks.css
--- a/restscrape/scraping/uBlock/css/cloud-ui.css
+++ b/restscrape/scraping/uBlock/css/cloud-ui.css
--- a/restscrape/scraping/uBlock/css/codemirror.css
+++ b/restscrape/scraping/uBlock/css/codemirror.css
--- a/restscrape/scraping/uBlock/css/common.css
+++ b/restscrape/scraping/uBlock/css/common.css
--- a/restscrape/scraping/uBlock/css/dashboard-common.css
+++ b/restscrape/scraping/uBlock/css/dashboard-common.css
--- a/restscrape/scraping/uBlock/css/dashboard.css
+++ b/restscrape/scraping/uBlock/css/dashboard.css
--- a/restscrape/scraping/uBlock/css/document-blocked.css
+++ b/restscrape/scraping/uBlock/css/document-blocked.css
--- a/restscrape/scraping/uBlock/css/dyna-rules.css
+++ b/restscrape/scraping/uBlock/css/dyna-rules.css