Fleshing out some of the functions to get the page, both blocking and async

7 years ago · b8d5cb5546
1 changed files with 50 additions and 2 deletions
--- a/restscrape/models.py
+++ b/restscrape/models.py
@ -2,16 +2,23 @@ from urllib.parse import quote_plus
 import datetime
 import uuid
 from celery.result import AsyncResult
 from django.conf import settings
 from django.core.files.base import ContentFile
 from django.db import models
 import django.contrib.postgres.fields as extended_fields
 import pytz
 from restscrape.celery import app
 from restscrape.scraping.browser import BrowserConnection
 from restscrape.scraping.browser import BrowserConnection, start_browser
 OLDEST_PAGE = getattr(settings, "OLDEST_PAGE", datetime.timedelta(days=1))
 # Create your models here.
 class PageTooOldError(Exception):
    pass
 class Page(models.Model):
@ -63,6 +70,12 @@ class Browser(models.Model):
        super().delete()
@app.task
 def fetch_page(url, wait_for=0, proxy=None, use_adblock=True):
    with get_tab(proxy=proxy, use_adblock=use_adblock) as tab:
        return tab.open(url, wait_for=wait_for)
 def get_tab(proxy, use_adblock=True):
    try:
@ -125,6 +138,7 @@ class ScrapeRequest(models.Model):
    def submit(self):
        self.save()
        pending = PendingScrapingResponse(request=self)
        pending.get_page()
        pending.save()
        return pending
@ -139,6 +153,40 @@ class PendingScrapingResponse(ScrapingResponse):
    )
    request = models.ForeignKey(ScrapeRequest, on_delete=models.CASCADE)
    def get_page(self):
        page = None
        try:
            # firstly attempt to retrieve page from cache
            page = Page.objects().get(url=self.request.url)
            if page.acess_time < datetime.datetime.now(pytz.UTC) - OLDEST_PAGE:
                raise PageTooOldError
            return page
        except (Page.DoesNotExist, PageTooOldError):
            if self.request.blocking:
                # if we can just send the page, then we'll do that
                page_source = fetch_page(
                    url=self.request.url,
                    wait_for=self.request.wait_for,
                    use_adblock=self.request.use_adblock,
                    proxy=self.request.proxy,
                )
                if page is None:
                    page = Page(url=self.request.url)
                page.write(page_source)
                page.save()
                return page
            else:
                # otherwise create a task and store it in the pending request object
                task: AsyncResult = fetch_page.delay(
                    url=self.request.url,
                    wait_for=self.request.wait_for,
                    use_adblock=self.request.use_adblock,
                    proxy=self.request.proxy,
                )
                self.task = PageRequestTask(task_id=task.id)
                return None
    def mark_complete(self, xpath_labels):
        completion_time = datetime.datetime.now(pytz.UTC)
        completed_response = CompletedScrapingResponse(