Not done more changes will be made but big first steps

7 years ago · b0dbd9fa03
5 changed files with 101 additions and 160 deletions
--- a/.gitignore
+++ b/.gitignore
@ -1,4 +1,6 @@
 __pycache__
 .gitignore
 /uBlock0.chromium
-/bg.html
+/bg.html
+/test_this_bullshit.py
+/output
--- a/batch_process.py
+++ b/batch_process.py
@ -1,10 +1,20 @@
-from price_finder import price_finder,BS
+from price_finder import ParseResult
+from lxml import etree
+from bs4 import BeautifulSoup as BS
 from itertools import cycle
 import requests
+from urllib.parse import urlparse
 # import requests_html
 import sys
 from ipaddress import ip_address
 from get_link import get_link
+import json
+with open('xpaths.json') as file:
+    xpaths_data = json.load(file)
+
+parser = etree.HTMLParser()
+def text2tree(text):
+    return etree.fromstring(text,parser)

 def get_proxies(link='https://free-proxy-list.net/',country = 'United States'):
 ##    ses = requests_html.HTMLSession()
@ -54,44 +64,18 @@ class proxy_iter:
        return self
    def blacklist(self,proxy):
        self.bad_proxies.add(proxy)
-# def render_page(link,proxies,ses):
-    # print(link)
-    # bad_proxies = set()
-    # page = None
-    # render_attempts = 0
-    # for proxy in proxies:
-        # print(proxy)
-        # try:
-            # r = ses.get(link,proxies={'http':proxy,'https':proxy})
-            # print('got')
-        # except (requests.exceptions.ProxyError,requests.exceptions.SSLError):
-            # print('!g!'+proxy)
-            # bad_proxies.add(proxy)
-            # continue
-        # if render_attempts < 3:
-            # render_attempts += 1
-            # try:
-                # r.html.render(timeout=10, sleep=10)
-                # print('rendered')
-            # except requests_html.MaxRetries:
-                # print('!r!'+proxy)
-                # bad_proxies.add(proxy)
-                # continue
-        # page = r.html.raw_html
-        # break
-    # if page:
-        # return page,{proxy},bad_proxies
-    # else:
-        # raise Exception("All proxies used up")
+
 def get_prices(links,use_proxies = True):
    pages = {}
+    xpaths = {link:xpaths_data[urlparse(link).netloc] for link in links}
+    # print(xpaths)
    if use_proxies: 
        proxies = proxy_iter(get_proxies() + get_proxies('https://www.us-proxy.org/'))
        for link in links:
            for proxy in proxies:
                print(link,proxy)
                try:
-                    page = get_link(link,proxy=proxy)
+                    page = get_link(link,xpaths,proxy=proxy)
                    pages[link] = page
                    break
                except Exception as e:
@ -100,57 +84,11 @@ def get_prices(links,use_proxies = True):
        if len(links) != len(pages.keys()):
            raise Exception('all proxies suck')
    else:
-        pages = get_link(links)
+        pages = get_link(links,xpaths)
    ret = []
    for link in links:
-        ret.append(price_finder(
-            link,bs=BS(pages[link],'lxml')
-            ))
+        tree = text2tree(pages[link])
+        ret.append(
+            ParseResult(link,tree)
+        )
    return ret
-            
-        
-
-def get_prices_old(links,no_reuse = True,use_proxies=True):
-    if use_proxies:
-        proxies = set(get_proxies() + get_proxies('https://www.us-proxy.org/'))
-    ses = requests_html.HTMLSession()   
-    ret = []
-    if use_proxies:
-        prev = set()
-    if use_proxies:
-        bad_proxies_set= set()
-    for link in links:
-        if use_proxies:
-            if no_reuse:
-                working_set = proxies-prev
-            # if use_proxies:
-            else:
-                working_set = proxies
-            page,prev,bad_proxies = render_page(link,working_set,ses)
-        else:
-            r=ses.get(link)
-            r.html.render()
-            page = r.html.raw_html
-
-        ret.append(price_finder(link,bs=BS(page,'lxml')))
-        if use_proxies:
-            bad_proxies_set |= bad_proxies
-            proxies -= bad_proxies
-    if use_proxies:
-        print(bad_proxies_set) 
-    ses.close()
-    return ret
-
-if __name__ == "__main__":
-    # ses = requests_html.HTMLSession()
-    # proxies = get_proxies('https://www.us-proxy.org/')
-    # page = render_page('https://www.banggood.com/Aomway-Commander-Goggles-V1-2D-3D-40CH-5_8G-FPV-Video-Headset-Support-HDMI-DVR-Headtracker-p-1107684.html?cur_warehouse=CN',
-        # proxies,
-        # ses)
-    
-    import saveto
-    import random
-    ql = saveto.load('quad_links')
-    random.shuffle(ql)
-    products = get_prices(ql,use_proxies=False)
-    # pass
--- a/get_link.py
+++ b/get_link.py
@ -1,50 +1,66 @@
 import pyppeteer
+import pyppeteer.errors
 import asyncio
 import os
-async def _get_link(browser,link):
+
+async def _get_link(browser,link,xpath):
    pages = await browser.pages()
    page = pages[0]
-    await page.goto(link,timeout=60_000)
+    await page.goto(link,waitUntil='documentloaded')
+    
+    xpath = [xpath['name'],xpath['price']]
+    for _xpath in xpath:
+        print(repr(_xpath))
+        try:
+            await page.waitForXPath(_xpath)
+        except pyppeteer.errors.TimeoutError:
+            pass
+    await asyncio.sleep(1)
    webpage = None
    for i in range(20):
        try:
            webpage = await page.content()
            break
        except:
-            time.sleep(1)
+            await asyncio.sleep(1)
    return webpage
    
-async def _single_link(browser,link):
-    webpage = await _get_link(browser,link)
+async def _single_link(browser,link,xpath):
+    webpage = await _get_link(browser,link,xpath)
    await browser.close()
    return webpage

-async def _multi_link(browser,links):
+async def _multi_link(browser,links,xpaths):
    results = {}
    for link in links:
-        webpage = await _get_link(browser,link)
+        xpath = xpaths[link]
+        webpage = await _get_link(browser,link,xpath)
        results[link] = webpage
    await browser.close()
    return results

-def get_link(links,headless = True,proxy = None):
-    ext = os.path.join(os.path.dirname(__file__),'uBlock0.chromium')
+def get_link(links,xpaths,headless = False,proxy = None):
    loop = asyncio.get_event_loop()
    run = loop.run_until_complete
    opts = {
        'headless':headless,
        }
-    opts['args'] = [f'--disable-extensions-except={ext}', f'--load-extension={ext}']
    if proxy:
-        opts['args'] += [f'--proxy-server={proxy}']
+        opts['args'] = [f'--proxy-server={proxy}']
+        
+    else:
+        opts['args'] = []
+    ext = os.path.join(os.path.dirname(__file__),'uBlock0.chromium')
+    opts['args'] += [f'--disable-extensions-except={ext}', f'--load-extension={ext}']
    # print(opts)
    browser = run(pyppeteer.launch(**opts))
    try:
        if isinstance(links,list):
-            result = run(_multi_link(browser,links))
+            result = run(_multi_link(browser,links,xpaths))
        else:
-            result = run(_single_link(browser,links))
+            result = run(_single_link(browser,links,xpaths[links]))
        return result
    except Exception as e:
        run(browser.close())
-        raise e
+        raise e
+        
--- a/price_finder.py
+++ b/price_finder.py
@ -1,81 +1,62 @@
-import urllib
-from fake_useragent import UserAgent
-from bs4 import BeautifulSoup as BS
-from requests_html import HTMLSession
 import re
 import datetime
-# import pytz
 import copy
+import json
+with open('xpaths.json') as file:
+    xpaths = json.load(file)

-user_agent = UserAgent().chrome
-debug = None
-def get_words(string,n):
-    words = re.finditer(r"(\b[^ \n]+\b)",string)
+def get_words(raw,n):
+    words = re.finditer(r"(\b[^ \n]+\b)",raw)
    word_list = list(match.group(0) for match in words)
    if len(word_list) > n:
        word_list = word_list[:n]
    return ' '.join(word_list)
-def get_page(url):
-    page = None
-    while not page:
-        page = urllib.request.Request(url,headers = {"User-Agent":user_agent})
-        page = str(urllib.request.urlopen(page).read())
-        
-    return page

-def get_BS(url):
-    return BS(get_page(url),"lxml")
+def format_price(raw):
+    return re.search(r'\d+(\.\d)?',raw).group(0)
+
+class ParseResult:

-class price_finder:
-    page_funcs = {
-    "www.amazon.com":{
-        "name":lambda page: re.sub(r"( {2,}|\n|\\n)","",page.find("span",id="productTitle").text),
-        "price":lambda page: page.find(name = "span",id = re.compile("priceblock.*")).text
-        },
-    "www.banggood.com":{
-        "name":lambda page: page.find("h1",attrs = {"itemprop":"name"}).text,
-        "price":lambda page: page.find("div",attrs = {"class":"now"}).get("oriprice")
-        },
-    "www.dalprops.com":{
-        "name":lambda page: page.find("h1",attrs = {"class":"product_title"}).text,
-        "price":lambda page: page.find("meta",attrs = {"itemprop":"price"}).get("content")
-        },
-    "www.gearbest.com":{
-        "name":lambda page:re.sub(" {2,}|\n","",page.find("div",attrs = {"class":"goodsIntro_titleWrap"}).find("h1").text),
-        "price":lambda page: page.find("span",attrs={"class":"goodsIntro_price"}).text
-        },
-    "hobbyking.com":{
-        "name":lambda page: page.find("h1",attrs={"class":"product-name"}).text,
-        "price":lambda page: page.find("span",id = re.compile(r"product-price.*")).find("span",attrs={"class":"price"}).text
-        },
-    "www.getfpv.com":{
-        "name": lambda page: re.sub(r"\\n|\n","", page.find("div",attrs={"class":"product-name"}).text),
-        "price": lambda page: re.sub(r"\\n|\n","", page.find("span",attrs={"id":re.compile("product-price.*")}).text)
-        }
-    }
-    def __init__(self,url,space_seperated_categories = 7,bs=None):
+    def __init__(self,url,tree,space_seperated_categories = 7,):
        self.url=url
        self.info_url = urllib.parse.urlparse(url)
        self.word_len = space_seperated_categories
-        if self.info_url.netloc not in price_finder.page_funcs.keys():
-            raise NotImplementedError("Not implemented for {}".format(self.info_url.netloc))
-        if bs:
-            self.bs= bs
-        else:
-            self.bs = get_BS(url)
-        # self.words = re_words(space_seperated_categories)
+        self.tree = tree
+        
+        
        self.time = datetime.datetime.today()
        self.info_product = self._get_product_info_()

            
    def _get_product_info_(self):
-        funcs = price_finder.page_funcs[self.info_url.netloc]
-        # print(self.url)
- 
+        
+        
+        host = self.info_url.netloc
+        
+        product_name = get_words(
+            self.tree.xpath(xpaths[host]['name'])[0].text
+            )
+            
+        other_raw = None
+        try:
+            other_raw = self.tree.xpath(xpaths[host]['other'])[0].text
+        except KeyError:
+            pass
+        
+        if host in ['www.gearbest.com']:
+            if other.raw:
+                price = '0.00'
+            else:
+                price = format_price(
+                    self.tree.xpath(xpaths[host]['price'])[0].text
+                    )
+                    
+        else:
+            price = format_price(
+                self.tree.xpath(xpaths[host]['price'])[0].text
+                )
+                
        return {
-            "product_name":get_words(funcs["name"](self.bs),self.word_len),
-            "price":funcs["price"](self.bs).replace("$",""),
-            }
-    # def to_json(self):
-        # ret = copy.deepcopy(self.__dict__)
-        # ret['time'] = ret['time'].
+            "product_name":product_name,
+            "price":price,
+            }
--- a/xpaths.json
+++ b/xpaths.json
@ -19,5 +19,9 @@
 	"www.dalprops.com": {
 		"name": "//h1[@itemprop='name']",
 		"price": "//*[@id='product-price']"
-	}
+	},
+    "hobbyking.com": {
+        "name": "//h1[contains(@class,'product-name')]",
+        "price": "//p[@class='special-price']/span[@class='price'] | //span[@class='regular-price']/span[@class='price']"
+    }
 }