python-scrapy/tutorial/middlewares.py

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals

# ! -*- encoding:utf-8 -*-
import base64
import sys
import random

PY3 = sys.version_info[0] >= 3


def base64ify(bytes_or_str):
    if PY3 and isinstance(bytes_or_str, str):
        input_bytes = bytes_or_str.encode('utf8')
    else:
        input_bytes = bytes_or_str

    output_bytes = base64.urlsafe_b64encode(input_bytes)
    if PY3:
        return output_bytes.decode('ascii')
    else:
        return output_bytes


class ProxyMiddleware(object):
    def process_request(self, request, spider):
        # 代理服务器
        proxyHost = "n10.t.16yun.cn"
        proxyPort = "31111"

        # 代理隧道验证信息
        proxyUser = "username"
        proxyPass = "password"

        request.meta['proxy'] = "http://{0}:{1}".format(proxyHost, proxyPort)

        # 添加验证头
        encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
        request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

        # 设置IP切换头(根据需求)
        tunnel = random.randint(1, 10000)
        request.headers['Proxy-Tunnel'] = str(tunnel)


class TutorialSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)


class TutorialDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
init 5 years ago			`# -- coding: utf-8 --`

			`# Define here the models for your spider middleware`
			`#`
			`# See documentation in:`
			`# https://doc.scrapy.org/en/latest/topics/spider-middleware.html`

			`from scrapy import signals`

			`# ! -- encoding:utf-8 --`
			`import base64`
			`import sys`
			`import random`

			`PY3 = sys.version_info[0] >= 3`


			`def base64ify(bytes_or_str):`
			`if PY3 and isinstance(bytes_or_str, str):`
			`input_bytes = bytes_or_str.encode('utf8')`
			`else:`
			`input_bytes = bytes_or_str`

			`output_bytes = base64.urlsafe_b64encode(input_bytes)`
			`if PY3:`
			`return output_bytes.decode('ascii')`
			`else:`
			`return output_bytes`


			`class ProxyMiddleware(object):`
			`def process_request(self, request, spider):`
			`# 代理服务器`
			`proxyHost = "n10.t.16yun.cn"`
			`proxyPort = "31111"`

			`# 代理隧道验证信息`
			`proxyUser = "username"`
			`proxyPass = "password"`

			`request.meta['proxy'] = "http://{0}:{1}".format(proxyHost, proxyPort)`

			`# 添加验证头`
			`encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)`
			`request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass`

			`# 设置IP切换头(根据需求)`
			`tunnel = random.randint(1, 10000)`
			`request.headers['Proxy-Tunnel'] = str(tunnel)`


			`class TutorialSpiderMiddleware(object):`
			`# Not all methods need to be defined. If a method is not defined,`
			`# scrapy acts as if the spider middleware does not modify the`
			`# passed objects.`

			`@classmethod`
			`def from_crawler(cls, crawler):`
			`# This method is used by Scrapy to create your spiders.`
			`s = cls()`
			`crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)`
			`return s`

			`def process_spider_input(self, response, spider):`
			`# Called for each response that goes through the spider`
			`# middleware and into the spider.`

			`# Should return None or raise an exception.`
			`return None`

			`def process_spider_output(self, response, result, spider):`
			`# Called with the results returned from the Spider, after`
			`# it has processed the response.`

			`# Must return an iterable of Request, dict or Item objects.`
			`for i in result:`
			`yield i`

			`def process_spider_exception(self, response, exception, spider):`
			`# Called when a spider or process_spider_input() method`
			`# (from other spider middleware) raises an exception.`

			`# Should return either None or an iterable of Response, dict`
			`# or Item objects.`
			`pass`

			`def process_start_requests(self, start_requests, spider):`
			`# Called with the start requests of the spider, and works`
			`# similarly to the process_spider_output() method, except`
			`# that it doesn’t have a response associated.`

			`# Must return only requests (not items).`
			`for r in start_requests:`
			`yield r`

			`def spider_opened(self, spider):`
			`spider.logger.info('Spider opened: %s' % spider.name)`


			`class TutorialDownloaderMiddleware(object):`
			`# Not all methods need to be defined. If a method is not defined,`
			`# scrapy acts as if the downloader middleware does not modify the`
			`# passed objects.`

			`@classmethod`
			`def from_crawler(cls, crawler):`
			`# This method is used by Scrapy to create your spiders.`
			`s = cls()`
			`crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)`
			`return s`

			`def process_request(self, request, spider):`
			`# Called for each request that goes through the downloader`
			`# middleware.`

			`# Must either:`
			`# - return None: continue processing this request`
			`# - or return a Response object`
			`# - or return a Request object`
			`# - or raise IgnoreRequest: process_exception() methods of`
			`# installed downloader middleware will be called`
			`return None`

			`def process_response(self, request, response, spider):`
			`# Called with the response returned from the downloader.`

			`# Must either;`
			`# - return a Response object`
			`# - return a Request object`
			`# - or raise IgnoreRequest`
			`return response`

			`def process_exception(self, request, exception, spider):`
			`# Called when a download handler or a process_request()`
			`# (from other downloader middleware) raises an exception.`

			`# Must either:`
			`# - return None: continue processing this exception`
			`# - return a Response object: stops process_exception() chain`
			`# - return a Request object: stops process_exception() chain`
			`pass`

			`def spider_opened(self, spider):`
			`spider.logger.info('Spider opened: %s' % spider.name)`