Starting on celery tasks and response models

7 years ago · 88d36e5622
4 changed files with 66 additions and 4 deletions
--- a/requirements.txt
+++ b/requirements.txt
@ -5,3 +5,4 @@ lxml
 django
 django-rest-framework
 psycopg2
 celery[redis]
--- a/restscrape/celery.py
+++ b/restscrape/celery.py
@ -0,0 +1,12 @@
 from celery import Celery
 from restscrape.utils import get_tab
 app = Celery("restscrape_funcs")
 app.conf.broker_url = "redis://localhost:6379/0"
 app.conf.result_backend = "redis://localhost:6379/0"
@app.task
 def fetch_page(url, wait_for=0, proxy=None, use_adblock=True):
    with get_tab(proxy=proxy, use_adblock=use_adblock) as tab:
        return tab.open(url, wait_for=wait_for)
--- a/restscrape/models.py
+++ b/restscrape/models.py
@ -1,11 +1,14 @@
 from urllib.parse import quote_plus
 import datetime
 import uuid
 from celery.result import AsyncResult
 from django.core.files.base import ContentFile
 from django.db import models
 import django.contrib.postgres.fields as extended_fields
 import pytz
 from restscrape.celery import app
 from restscrape.scraping.browser import BrowserConnection
 # Create your models here.
@ -60,7 +63,53 @@ class Browser(models.Model):
        super().delete()
 class ScrapeRequet(models.Model):
    xpath_labels = extended_fields.HStoreField()
 class PageRequestTask(models.Model):
    task_id = models.UUIDField(primary_key=True)
    _result = None
    @property
    def async_result(self) -> AsyncResult:
        if self._result is None:
            self._result = AsyncResult(self.task_id, app=app)
        return self._result
    def is_ready(self):
        return self.async_result.ready()
    def pop_result(self):
        res = self.async_result.get()
        self.delete()
        return res
 class ScrapingResponse(models.Model):
    id = models.UUIDField(primary_key=True, default=uuid.uuid4, editable=False)
 class PendingScrapingResponse(ScrapingResponse):
    task = models.ForeignKey(PageRequestTask, on_delete=models.CASCADE)
    def mark_complete(self, xpath_labels):
        completion_time = datetime.datetime.now(pytz.UTC)
        completed_response = CompletedScrapingResponse(
            xpath_labels=xpath_labels, completion_time=completion_time, id=self.id
        )
        completed_response.save()
        self.delete()
        return completed_response
 class CompletedScrapingResponse(ScrapingResponse):
    xpath_labels = extended_fields.JSONField()
    completion_time = models.DateTimeField()
 class ScrapeRequest(models.Model):
    # internal
    submit_time = models.DateTimeField(auto_now=True, editable=False)
    # parameters
    blocking = models.BooleanField()
    submit_time = models.DateTimeField(auto_now=True)
    url = models.URLField()
    use_adblock = models.BooleanField()
    wait_for = models.IntegerField()
    xpath_labels = extended_fields.HStoreField()
--- a/restscrape/utils.py
+++ b/restscrape/utils.py
@ -1,5 +1,5 @@
 from restscrape.models import Browser
 from restscrape.scraping.browser import start_browser, BrowserConnection
 from restscrape.scraping.browser import start_browser
 def get_tab(proxy, use_adblock=True):