init

6 years ago · 51931f9cd9
17 changed files with 391 additions and 0 deletions
--- a/requirements.dev.txt
+++ b/requirements.dev.txt
@ -0,0 +1,3 @@
+pyppeteer
+scrapy
+scrapy-random-useragent
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,32 @@
+appdirs==1.4.4
+attrs==19.3.0
+Automat==20.2.0
+cffi==1.14.0
+constantly==15.1.0
+cryptography==2.9.2
+cssselect==1.1.0
+hyperlink==19.0.0
+idna==2.9
+incremental==17.5.0
+lxml==4.5.0
+parsel==1.6.0
+Protego==0.1.16
+pyasn1==0.4.8
+pyasn1-modules==0.2.8
+pycparser==2.20
+PyDispatcher==2.0.5
+pyee==7.0.1
+PyHamcrest==2.0.2
+pyOpenSSL==19.1.0
+pyppeteer==0.2.2
+queuelib==1.5.0
+Scrapy==2.1.0
+scrapy-random-useragent==0.2
+service-identity==18.1.0
+six==1.14.0
+tqdm==4.46.0
+Twisted==20.3.0
+urllib3==1.25.9
+w3lib==1.21.0
+websockets==8.1
+zope.interface==5.1.0
--- a/scrapy.cfg
+++ b/scrapy.cfg
@ -0,0 +1,11 @@
+# Automatically created by: scrapy startproject
+#
+# For more information about the [deploy] section see:
+# https://scrapyd.readthedocs.org/en/latest/deploy.html
+
+[settings]
+default = scrapypyppeteer.settings
+
+[deploy]
+#url = http://localhost:6800/
+project = scrapypyppeteer
--- a/scrapypyppeteer/init.py
+++ b/scrapypyppeteer/init.py
--- a/scrapypyppeteer/items.py
+++ b/scrapypyppeteer/items.py
@ -0,0 +1,14 @@
+# -*- coding: utf-8 -*-
+
+# Define here the models for your scraped items
+#
+# See documentation in:
+# http://doc.scrapy.org/en/latest/topics/items.html
+
+import scrapy
+
+
+class ScrapypyppeteerItem(scrapy.Item):
+    # define the fields for your item here like:
+    # name = scrapy.Field()
+    pass
--- a/scrapypyppeteer/middlewares.py
+++ b/scrapypyppeteer/middlewares.py
@ -0,0 +1,161 @@
+import websockets
+from scrapy.http import HtmlResponse
+from logging import getLogger
+import asyncio
+import pyppeteer
+import logging
+from concurrent.futures._base import TimeoutError
+import base64
+import sys
+import random
+
+pyppeteer_level = logging.WARNING
+logging.getLogger('websockets.protocol').setLevel(pyppeteer_level)
+logging.getLogger('pyppeteer').setLevel(pyppeteer_level)
+
+PY3 = sys.version_info[0] >= 3
+
+
+def base64ify(bytes_or_str):
+    if PY3 and isinstance(bytes_or_str, str):
+        input_bytes = bytes_or_str.encode('utf8')
+    else:
+        input_bytes = bytes_or_str
+
+    output_bytes = base64.urlsafe_b64encode(input_bytes)
+    if PY3:
+        return output_bytes.decode('ascii')
+    else:
+        return output_bytes
+
+
+class ProxyMiddleware(object):
+    USER_AGENT = open('useragents.txt').readlines()
+
+    def process_request(self, request, spider):
+        # 代理服务器
+        # proxyHost = "t.16yun.cn"
+        # proxyPort = "31111"
+        proxyHost = "u1.5.tn.16yun.cn"
+        proxyPort = "6441"
+        # 代理隧道验证信息
+        # proxyUser = "username"
+        # proxyPass = "password"
+        proxyUser = "16ZJZYVL"
+        proxyPass = "113813"
+
+        request.meta['proxy'] = "http://{0}:{1}".format(proxyHost, proxyPort)
+
+        # 添加验证头
+        encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
+        request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
+
+        # 设置IP切换头(根据需求)
+        tunnel = random.randint(1, 10000)
+        request.headers['Proxy-Tunnel'] = str(tunnel)
+        request.headers['User-Agent'] = random.choice(self.USER_AGENT)
+
+
+class PyppeteerMiddleware(object):
+    def __init__(self, **args):
+        """
+        init logger, loop, browser
+        :param args:
+        """
+        self.logger = getLogger(__name__)
+        self.loop = asyncio.get_event_loop()
+        self.browser = self.loop.run_until_complete(
+            pyppeteer.launch(headless=True))
+        self.args = args
+
+    def __del__(self):
+        """
+        close loop
+        :return:
+        """
+        self.loop.close()
+
+    def render(self, url, retries=1, script=None, wait=0.3, scrolldown=False, sleep=0,
+               timeout=8.0, keep_page=False):
+        """
+        render page with pyppeteer
+        :param url: page url
+        :param retries: max retry times
+        :param script: js script to evaluate
+        :param wait: number of seconds to wait before loading the page, preventing timeouts
+        :param scrolldown: how many times to page down
+        :param sleep: how many long to sleep after initial render
+        :param timeout: the longest wait time, otherwise raise timeout error
+        :param keep_page: keep page not to be closed, browser object needed
+        :param browser: pyppetter browser object
+        :param with_result: return with js evaluation result
+        :return: content, [result]
+        """
+
+        # define async render
+        async def async_render(url, script, scrolldown, sleep, wait, timeout, keep_page):
+            try:
+                # basic render
+                page = await self.browser.newPage()
+                await asyncio.sleep(wait)
+                response = await page.goto(url, options={'timeout': int(timeout * 1000)})
+                if response.status != 200:
+                    return None, None, response.status
+                result = None
+                # evaluate with script
+                if script:
+                    result = await page.evaluate(script)
+
+                # scroll down for {scrolldown} times
+                if scrolldown:
+                    for _ in range(scrolldown):
+                        await page._keyboard.down('PageDown')
+                        await asyncio.sleep(sleep)
+                else:
+                    await asyncio.sleep(sleep)
+                if scrolldown:
+                    await page._keyboard.up('PageDown')
+
+                # get html of page
+                content = await page.content()
+
+                return content, result, response.status
+            except TimeoutError:
+                return None, None, 500
+            finally:
+                # if keep page, do not close it
+                if not keep_page:
+                    await page.close()
+
+        content, result, status = [None] * 3
+
+        # retry for {retries} times
+        for i in range(retries):
+            if not content:
+                content, result, status = self.loop.run_until_complete(
+                    async_render(url=url, script=script, sleep=sleep, wait=wait,
+                                 scrolldown=scrolldown, timeout=timeout, keep_page=keep_page))
+            else:
+                break
+
+        # if need to return js evaluation result
+        return content, result, status
+
+    def process_request(self, request, spider):
+        """
+        :param request: request object
+        :param spider: spider object
+        :return: HtmlResponse
+        """
+        if request.meta.get('render'):
+            try:
+                self.logger.debug('rendering %s', request.url)
+                html, result, status = self.render(request.url)
+                return HtmlResponse(url=request.url, body=html, request=request, encoding='utf-8',
+                                    status=status)
+            except websockets.exceptions.ConnectionClosed:
+                pass
+
+    @classmethod
+    def from_crawler(cls, crawler):
+        return cls(**crawler.settings.get('PYPPETEER_ARGS', {}))
--- a/scrapypyppeteer/pipelines.py
+++ b/scrapypyppeteer/pipelines.py
@ -0,0 +1,11 @@
+# -*- coding: utf-8 -*-
+
+# Define your item pipelines here
+#
+# Don't forget to add your pipeline to the ITEM_PIPELINES setting
+# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
+
+
+class ScrapypyppeteerPipeline(object):
+    def process_item(self, item, spider):
+        return item
--- a/scrapypyppeteer/settings.py
+++ b/scrapypyppeteer/settings.py
@ -0,0 +1,98 @@
+# -*- coding: utf-8 -*-
+
+# Scrapy settings for scrapypyppeteer project
+#
+# For simplicity, this file contains only settings considered important or
+# commonly used. You can find more settings consulting the documentation:
+#
+#     http://doc.scrapy.org/en/latest/topics/settings.html
+#     http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
+#     http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
+
+BOT_NAME = 'scrapypyppeteer'
+
+SPIDER_MODULES = ['scrapypyppeteer.spiders']
+NEWSPIDER_MODULE = 'scrapypyppeteer.spiders'
+
+# Crawl responsibly by identifying yourself (and your website) on the user-agent
+# USER_AGENT = 'scrapypyppeteer (+http://www.yourdomain.com)'
+
+# Obey robots.txt rules
+ROBOTSTXT_OBEY = False
+
+# Configure maximum concurrent requests performed by Scrapy (default: 16)
+# CONCURRENT_REQUESTS = 32
+
+# Configure a delay for requests for the same website (default: 0)
+# See http://scrapy.readthedocs.org/en/latest/topics/settings.html#download-delay
+# See also autothrottle settings and docs
+# DOWNLOAD_DELAY = 3
+# The download delay setting will honor only one of:
+# CONCURRENT_REQUESTS_PER_DOMAIN = 16
+# CONCURRENT_REQUESTS_PER_IP = 16
+
+# Disable cookies (enabled by default)
+# COOKIES_ENABLED = False
+
+# Disable Telnet Console (enabled by default)
+# TELNETCONSOLE_ENABLED = False
+
+# Override the default request headers:
+# DEFAULT_REQUEST_HEADERS = {
+#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
+#   'Accept-Language': 'en',
+# }
+
+# Enable or disable spider middlewares
+# See http://scrapy.readthedocs.org/en/latest/topics/spider-middleware.html
+# SPIDER_MIDDLEWARES = {
+#    'scrapypyppeteer.middlewares.ScrapypyppeteerSpiderMiddleware': 543,
+# }
+
+# Enable or disable downloader middlewares
+# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html
+DOWNLOADER_MIDDLEWARES = {
+    'scrapypyppeteer.middlewares.PyppeteerMiddleware': 543,
+    'scrapypyppeteer.middlewares.ProxyMiddleware': 100,
+
+}
+
+# Enable or disable extensions
+# See http://scrapy.readthedocs.org/en/latest/topics/extensions.html
+# EXTENSIONS = {
+#    'scrapy.extensions.telnet.TelnetConsole': None,
+# }
+
+# Configure item pipelines
+# See http://scrapy.readthedocs.org/en/latest/topics/item-pipeline.html
+# ITEM_PIPELINES = {
+#    'scrapypyppeteer.pipelines.ScrapypyppeteerPipeline': 300,
+# }
+
+# Enable and configure the AutoThrottle extension (disabled by default)
+# See http://doc.scrapy.org/en/latest/topics/autothrottle.html
+# AUTOTHROTTLE_ENABLED = True
+# The initial download delay
+# AUTOTHROTTLE_START_DELAY = 5
+# The maximum download delay to be set in case of high latencies
+# AUTOTHROTTLE_MAX_DELAY = 60
+# The average number of requests Scrapy should be sending in parallel to
+# each remote server
+# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
+# Enable showing throttling stats for every response received:
+# AUTOTHROTTLE_DEBUG = False
+
+# Enable and configure HTTP caching (disabled by default)
+# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
+# HTTPCACHE_ENABLED = True
+# HTTPCACHE_EXPIRATION_SECS = 0
+# HTTPCACHE_DIR = 'httpcache'
+# HTTPCACHE_IGNORE_HTTP_CODES = []
+# HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
+
+
+PYPPETEER_ARGS = {
+    'timeout': 8
+}
+
+LOG_LEVEL = 'INFO'
--- a/scrapypyppeteer/spiders/16yun.py
+++ b/scrapypyppeteer/spiders/16yun.py
@ -0,0 +1,15 @@
+# -*- coding: utf-8 -*-
+from scrapy import Spider, Request
+
+
+class YiniuYunSpider(Spider):
+    name = '16yun'
+    allowed_domains = ['current-ip.16yun.cn']
+    start_url = 'http://current-ip.16yun.cn:802/ip'
+
+    def start_requests(self):
+        yield Request(self.start_url, callback=self.parse_list)
+
+    def parse_list(self, response):
+        with open('16yun.html', 'w', encoding='utf-8') as f:
+            f.write(response.text)
--- a/scrapypyppeteer/spiders/init.py
+++ b/scrapypyppeteer/spiders/init.py
@ -0,0 +1,4 @@
+# This package will contain the spiders of your Scrapy project
+#
+# Please refer to the documentation for information on how to create and manage
+# your spiders.
--- a/scrapypyppeteer/spiders/pycache/16yun.cpython-36.pyc
+++ b/scrapypyppeteer/spiders/pycache/16yun.cpython-36.pyc
--- a/scrapypyppeteer/spiders/pycache/init.cpython-36.pyc
+++ b/scrapypyppeteer/spiders/pycache/init.cpython-36.pyc
--- a/scrapypyppeteer/spiders/pycache/quotes.cpython-36.pyc
+++ b/scrapypyppeteer/spiders/pycache/quotes.cpython-36.pyc
--- a/scrapypyppeteer/spiders/pycache/taobao.cpython-36.pyc
+++ b/scrapypyppeteer/spiders/pycache/taobao.cpython-36.pyc
--- a/scrapypyppeteer/spiders/quotes.py
+++ b/scrapypyppeteer/spiders/quotes.py
@ -0,0 +1,18 @@
+# -*- coding: utf-8 -*-
+import scrapy
+
+
+class QuotesSpider(scrapy.Spider):
+    name = 'quotes'
+    allowed_domains = ['quotes.toscrape.com']
+    start_urls = ['http://quotes.toscrape.com/js/']
+    
+    def parse(self, response):
+        for quote in response.css('div.quote'):
+            yield {
+                'text': quote.css('span.text::text').extract_first(),
+                'author': quote.css('small.author::text').extract_first(),
+                'tags': quote.css('div.tags > a.tag::text').extract()
+            }
+        with open('quotes.js.enable.html', 'w', encoding='utf-8') as f:
+            f.write(response.text)
--- a/scrapypyppeteer/spiders/taobao.py
+++ b/scrapypyppeteer/spiders/taobao.py
@ -0,0 +1,18 @@
+# -*- coding: utf-8 -*-
+from scrapy import Spider, Request
+
+
+class TaobaoSpider(Spider):
+    name = 'taobao'
+    allowed_domains = ['s.taobao.com']
+    start_url = 'http://s.taobao.com/search?q={keyword}'
+    keywords = ['ipad']
+    
+    def start_requests(self):
+        for keyword in self.keywords:
+            url = self.start_url.format(keyword=keyword)
+            yield Request(url, callback=self.parse_list)
+    
+    def parse_list(self, response):
+        with open('taobao.html', 'w', encoding='utf-8') as f:
+            f.write(response.text)
--- a/useragents.txt
+++ b/useragents.txt
@ -0,0 +1,6 @@
+Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.2.16) Gecko/20110319 Firefox/40
+Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; QQBrowser/8.3.4769.400)
+MozillaTest/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )
+Mozilla/5.0 (Windows NT 6.2; rv:39.0) Gecko/20100101 Firefox/39.0
+Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0; QQBrowser/8.3.4769.400)
+Mozilla/5.0 (Windows NT 6.1; rv:39.0) Gecko/20100101 Firefox/39.0