爬蟲用什麼配置伺服器_python中進行爬蟲抓取怎麼樣能夠使用代理IP

① 爬蟲用socks還是http

http。
HTTP是對傳輸數據進行加密，是協議的安全版。
它有兩個主要功能，有加密數據，建立信息安全通道，確保傳輸過程中的數據安全和對網站伺服器進行真實身份認證。
HTTP 代理被認為是更高級別的代理，是通過網路瀏覽器訪問網頁或網站的絕佳工具，可以為企業和個人採集網頁數據提供很好的支持。

② 分布式爬蟲需要用多台主機嗎

一台主機大概可以保證30個左右的從機的URL供應，所以我們只需要一台計算機作為主機就夠用了。在這里我推薦將主機和資料庫分開部署，用一台單獨的計算機作為Redis和MongoDB伺服器（然後使用自己的計算機作為主機，其他的計算機作為從機。

有很多用戶喜歡用兩個屏幕，尤其是程序員、游戲玩家、視頻製作者等，可以說雙屏顯示，游戲工作，兩不誤。那麼電腦設置雙屏顯示或多屏顯示有什麼用？怎麼設置雙屏或多屏顯示呢？下面小編簡單介紹一下它的作用以及具體的操作方法吧！

雙屏顯示器有什麼好處（電腦）

1、大屏幕拼接

（拼接計算機圖形，拼接動態視頻）投影牆;公安、軍事、鐵路、交通、航天、郵電、衛星發射等指揮調度系統;圖形圖像編輯，三維動畫，多媒體設計;工業領域的過程式控制制;證券交易、期貨、銀行信息顯示;CAD/CAM設計，排版編輯系統，視頻圖象編輯。

2、文件編輯：

製作企劃案文件資料時，同時參考搜尋相關網路資料，不會因為切換視窗而造成資料混亂。

3、繪圖編輯：

使用繪圖軟體設計案件時，同時開啟參考文案窗口，也可以延伸桌面，方便處理大型設計稿製作，與校對的窗口完全不重疊。

4、影視娛樂：

（1）收看網路電視，同時瀏覽其它頻道的節目介紹，精彩節目不錯過。

（2）玩在線游戲時，可同步對照游戲攻略的密技。

5、辦公室：

（1）橫跨兩個以上的屏幕檢視大型表格（如EXCEL圖表）。

（2）在延伸出的桌面空間上同時開啟多個程序，不需頻繁地切換使用窗。

（3）讀取電子郵件並同時在其它屏幕開啟附件檔案。

6、程序設計：

撰寫復雜的程序時，另外一個窗口同時檢視程序執行結果畫面，方便進行更新修改。

以上就是雙屏電腦的好處了，大家現在對於雙屏電腦是不是也有所了解了呢？看到小編為大家列舉的都是雙屏電腦的好處是不是有些心動呢？下面一起來看看如何設置吧！

一、硬體要求（以Win10系統為案例）

1、電腦主機必須具備VGA/DVI/HDMI任意兩路輸出的獨立顯卡介面（一般入門級顯卡就支持），如下圖所示：

2、准備VGA/DVI/HDMI任意兩根線，顯示輸出介面對應的連接線外觀圖如下所示：

3、兩個顯示器，支持VGA/DVI/HDMI任意兩種介面（否則需要VGA轉換器接頭）

二、雙屏操作步驟

1、首先把外接顯示器與電腦顯卡介面通過VGA/DVI/HDMI任意兩種線相連接。

2、連接成功後，進入電腦系統桌面，滑鼠右擊桌面空白處選擇【顯示設置】

3、如果連接成功就可以看到顯示器有2個

4、顯示界面找到【多顯示器設置】下方選擇【擴展這些顯示器】，然後兩個顯示器就可以正常顯示了。

5、如果線路檢測沒問題仍然顯示不出來，那麼滑鼠右擊桌面選擇【 NVIDIA 控制面板】

6、找到【設置多個顯示器】，然後勾選我們希望使用的顯示器，這樣就可以了。

三、多屏顯示方法

硬體要求：

除了支持雙屏的硬體條件之外，部分電腦需要進BIOS設置查找相關選項，若無法找到，說明主板不支持，請參考下面操作。

進BIOS操作步驟:

1、開機進入BIOS，找到【Devices】-【Video Setup】選項，敲擊Enter回車按鍵；

2、選擇【Select Active Video】選項設置成【IGD】模式，並將【Multi-Monitor Support】選項設置成【Enabled】模式；

3、設置完成後，點擊F10鍵，選擇【Yes】進行保存；

4、重啟進入操作系統後，在桌面空白處右鍵，從菜單中找到集成顯卡控制台程序，進行多屏顯示設置即可。

③ 用於爬蟲和數據挖掘組裝伺服器。預算1w，這個配置怎麼樣

如果不做分布式抓取，普通的電腦就足夠用了，你這個配置屬於台式機比較高端的配置了，有點浪費資源。普通的4核8G，2T機械硬碟，足夠你小規模使用了。

④ 做分布式爬蟲和搜索引擎對於伺服器配置有什麼要求

實驗室用的爬蟲和搜索引擎的伺服器不能低於 4核心~8核心的，內存越大越好。

因為爬蟲和搜索引擎對CPU計算能力要求高，對內存的存儲能力要求大。

⑤ python爬蟲怎麼設置HTTP代理伺服器

解決的方法很簡單，就是使用代理伺服器。
使用代理伺服器去爬取某個網站的內容的時候，在對方的網站上，顯示的不是我們真實的IP地址，而是代理伺服器的IP地址。並且在Python爬蟲中，使用代理伺服器設置起來也很簡單。

⑥ 「2022 年」崔慶才 Python3 爬蟲教程 - 代理的使用方法

前面我們介紹了多種請求庫，如 urllib、requests、Selenium、Playwright 等用法，但是沒有統一梳理代理的設置方法，本節我們來針對這些庫來梳理下代理的設置方法。

在本節開始之前，請先根據上一節了解一下代理的基本原理，了解了基本原理之後我們可以更好地理解和學習本節的內容。

另外我們需要先獲取一個可用代理，代理就是 IP 地址和埠的組合，就是 : 這樣的格式。如果代理需要訪問認證，那就還需要額外的用戶名密碼兩個信息。

那怎麼獲取一個可用代理呢？

使用搜索引擎搜索「代理」關鍵字，可以看到許多代理服務網站，網站上會有很多免費或付費代理，比如快代理的免費 HTTP 代理：https://www.kuaidaili.com/free/ 上面就寫了很多免費代理，但是這些免費代理大多數情況下並不一定穩定，所以比較靠譜的方法是購買付費代理。付費代理的各大代理商家都有套餐，數量不用多，穩定可用即可，我們可以自行選購。

另外除了購買付費 HTTP 代理，我們也可以在本機配置一些代理軟體，具體的配置方法可以參考 https://setup.scrape.center/proxy-client，軟體運行之後會在本機創建 HTTP 或 SOCKS 代理服務，所以代理地址一般都是 127.0.0.1: 這樣的格式，不同的軟體用的埠可能不同。

這里我的本機安裝了一部代理軟體，它會在本地 7890 埠上創建 HTTP 代理服務，即代理為 127.0.0.1:7890。另外，該軟體還會在 7891 埠上創建 SOCKS 代理服務，即代理為 127.0.0.1:7891，所以只要設置了這個代理，就可以成功將本機 IP 切換到代理軟體連接的伺服器的 IP 了。

在本章下面的示例里，我使用上述代理來演示其設置方法，你也可以自行替換成自己的可用代理。

設置代理後，測試的網址是 http://httpbin.org/get，訪問該鏈接我們可以得到請求的相關信息，其中返回結果的 origin 欄位就是客戶端的 IP，我們可以根據它來判斷代理是否設置成功，即是否成功偽裝了 IP。

好，接下來我們就來看下各個請求庫的代理設置方法吧。

首先我們以最基礎的 urllib 為例，來看一下代理的設置方法，代碼如下：

運行結果如下：

這里我們需要藉助 ProxyHandler 設置代理，參數是字典類型，鍵名為協議類型，鍵值是代理。注意，此處代理前面需要加上協議，即 http:// 或者 https://，當請求的鏈接是 HTTP 協議的時候，會使用 http 鍵名對應的代理，當請求的鏈接是 HTTPS 協議的時候，會使用 https 鍵名對應的代理。不過這里我們把代理本身設置為了 HTTP 協議，即前綴統一設置為了 http://，所以不論訪問 HTTP 還是 HTTPS 協議的鏈接，都會使用我們配置的 HTTP 協議的代理進行請求。

創建完 ProxyHandler 對象之後，我們需要利用 build_opener 方法傳入該對象來創建一個 Opener，這樣就相當於此 Opener 已經設置好代理了。接下來直接調用 Opener 對象的 open 方法，即可訪問我們所想要的鏈接。

運行輸出結果是一個 JSON，它有一個欄位 origin，標明了客戶端的 IP。驗證一下，此處的 IP 確實為代理的 IP，並不是真實的 IP。這樣我們就成功設置好代理，並可以隱藏真實 IP 了。

如果遇到需要認證的代理，我們可以用如下的方法設置：

這里改變的只是 proxy 變數，只需要在代理前面加入代理認證的用戶名密碼即可，其中 username 就是用戶名，password 為密碼，例如 username 為 foo，密碼為 bar，那麼代理就是 foo:[email protected]:7890。

如果代理是 SOCKS5 類型，那麼可以用如下方式設置代理：

此處需要一個 socks 模塊，可以通過如下命令安裝：

這里需要本地運行一個 SOCKS5 代理，運行在 7891 埠，運行成功之後和上文 HTTP 代理輸出結果是一樣的：

結果的 origin 欄位同樣為代理的 IP，代理設置成功。

對於 requests 來說，代理設置非常簡單，我們只需要傳入 proxies 參數即可。

這里以我本機的代理為例，來看下 requests 的 HTTP 代理設置，代碼如下：

運行結果如下：

和 urllib 一樣，當請求的鏈接是 HTTP 協議的時候，會使用 http 鍵名對應的代理，當請求的鏈接是 HTTPS 協議的時候，會使用 https 鍵名對應的代理，不過這里統一使用了 HTTP 協議的代理。

運行結果中的 origin 若是代理伺服器的 IP，則證明代理已經設置成功。

如果代理需要認證，那麼在代理的前面加上用戶名和密碼即可，代理的寫法就變成如下所示：

這里只需要將 username 和 password 替換即可。

如果需要使用 SOCKS 代理，則可以使用如下方式來設置：

這里我們需要額外安裝一個包 requests[socks]，相關命令如下所示：

運行結果是完全相同的：

另外，還有一種設置方式，即使用 socks 模塊，也需要像上文一樣安裝 socks 庫。這種設置方法如下所示：

使用這種方法也可以設置 SOCKS 代理，運行結果完全相同。相比第一種方法，此方法是全局設置的。我們可以在不同情況下選用不同的方法。

httpx 的用法本身就與 requests 的使用非常相似，所以其也是通過 proxies 參數來設置代理的，不過與 requests 不同的是，proxies 參數的鍵名不能再是 http 或 https，而需要更改為 http:// 或 https://，其他的設置是一樣的。

對於 HTTP 代理來說，設置方法如下：

對於需要認證的代理，也是改下 proxy 的值即可：

這里只需要將 username 和 password 替換即可。

運行結果和使用 requests 是類似的，結果如下：

對於 SOCKS 代理，我們需要安裝 httpx-socks 庫，安裝方法如下：

這樣會同時安裝同步和非同步兩種模式的支持。

對於同步模式，設置方法如下：

對於非同步模式，設置方法如下：

和同步模式不同的是，transport 對象我們用的是 AsyncProxyTransport 而不是 SyncProxyTransport，同時需要將 Client 對象更改為 AsyncClient 對象，其他的不變，運行結果是一樣的。

Selenium 同樣可以設置代理，這里以 Chrome 為例來介紹其設置方法。

對於無認證的代理，設置方法如下：

運行結果如下：

代理設置成功，origin 同樣為代理 IP 的地址。

如果代理是認證代理，則設置方法相對比較繁瑣，具體如下所示：

這里需要在本地創建一個 manifest.json 配置文件和 background.js 腳本來設置認證代理。運行代碼之後，本地會生成一個 proxy_auth_plugin.zip 文件來保存當前配置。

運行結果和上例一致，origin 同樣為代理 IP。

SOCKS 代理的設置也比較簡單，把對應的協議修改為 socks5 即可，如無密碼認證的代理設置方法為：

運行結果是一樣的。

對於 aiohttp 來說，我們可以通過 proxy 參數直接設置。HTTP 代理設置如下：

如果代理有用戶名和密碼，像 requests 一樣，把 proxy 修改為如下內容：

這里只需要將 username 和 password 替換即可。

對於 SOCKS 代理，我們需要安裝一個支持庫 aiohttp-socks，其安裝命令如下：

我們可以藉助於這個庫的 ProxyConnector 來設置 SOCKS 代理，其代碼如下：

運行結果是一樣的。

另外，這個庫還支持設置 SOCKS4、HTTP 代理以及對應的代理認證，可以參考其官方介紹。

對於 Pyppeteer 來說，由於其默認使用的是類似 Chrome 的 Chromium 瀏覽器，因此其設置方法和 Selenium 的 Chrome 一樣，如 HTTP 無認證代理設置方法都是通過 args 來設置的，實現如下：

運行結果如下：

同樣可以看到設置成功。

SOCKS 代理也一樣，只需要將協議修改為 socks5 即可，代碼實現如下：

運行結果也是一樣的。

相對 Selenium 和 Pyppeteer 來說，Playwright 的代理設置更加方便，其預留了一個 proxy 參數，可以在啟動 Playwright 的時候設置。

對於 HTTP 代理來說，可以這樣設置：

在調用 launch 方法的時候，我們可以傳一個 proxy 參數，是一個字典。字典有一個必填的欄位叫做 server，這里我們可以直接填寫 HTTP 代理的地址即可。

運行結果如下：

對於 SOCKS 代理，設置方法也是完全一樣的，我們只需要把 server 欄位的值換成 SOCKS 代理的地址即可：

運行結果和剛才也是完全一樣的。

對於有用戶名和密碼的代理，Playwright 的設置也非常簡單，我們只需要在 proxy 參數額外設置 username 和 password 欄位即可，假如用戶名和密碼分別是 foo 和 bar，則設置方法如下：

這樣我們就能非常方便地為 Playwright 實現認證代理的設置。

以上我們就總結了各個請求庫的代理使用方式，各種庫的設置方法大同小異，學會了這些方法之後，以後如果遇到封 IP 的問題，我們可以輕鬆通過加代理的方式來解決。

本節代碼：https://github.com/Python3WebSpider/ProxyTest

⑦ 爬蟲對筆記本的要求

現如今在許多Linux和UNIX的版本中默認已經自帶了Python的安裝版本。比如如果你的筆記本上裝了Ubuntu操作系統的話，打開終端直接輸入python,那麼恭喜你，你可以直接使用Python了。如今，某些Windows預裝的台式機（比如某些HP伺服器）也都預裝了Python. 因此Python安裝時所需資源非常低。如果筆記本上是Windows/Mac, 直接去Python的官網下載所需版本，直接安裝也就好了。現在的筆記本配置運行Python程序都綽綽有餘的。即使是早期的電腦配置如奔騰處理器時代，256 m 內存或者512內存即可，20g以上硬碟，跑起Python都不費力。

希望以上得回答能夠幫助你。

⑧ python中，進行爬蟲抓取怎麼樣能夠使用代理IP

在python中用爬蟲再用到代理伺服器，有兩個辦法，①直接在布署該python爬蟲的電腦上設置代理伺服器，這樣從該電腦上出站的信息就只能由代理伺服器處理了，爬蟲的也不例外，可以搜"windows設置代理伺服器"、"Linux設置代理伺服器"。通常是」設置->網路->連接->代理「。
②若想讓python單獨使用這個代理伺服器，可以搜一下"python proxy config"，"python配置代理伺服器"，有一些庫支持簡單的BM代理伺服器連接。

⑨ 做爬蟲用的伺服器或者VPS用什麼好

用芝麻VPS吧，不用自己搭建ip代理池，自動切換ip，超大空間可以搭建存儲模塊。獨立空間，不佔用伺服器，所以如果剛起步做爬蟲的話，而且並沒有較為空曠的空間和寬裕的資金，這個還是不錯的。

爬蟲用什麼配置伺服器

與爬蟲用什麼配置伺服器相關的內容