通过爬虫实现模拟浏览器访问功能_如何用Python爬虫抓取网页内容

⑴ Java网络爬虫怎么实现

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。
传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

以下是一个使用java实现的简单爬虫核心代码：
public void crawl() throws Throwable {
while (continueCrawling()) {
CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL
if (url != null) {
printCrawlInfo();
String content = getContent(url); //获取URL的文本信息

//聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理
if (isContentRelevant(content, this.regexpSearchPattern)) {
saveContent(url, content); //保存网页至本地

//获取网页内容中的链接，并放入待爬取队列中
Collection urlStrings = extractUrls(content, url);
addUrlsToUrlQueue(url, urlStrings);
} else {
System.out.println(url + " is not relevant ignoring ...");
}

//延时防止被对方屏蔽
Thread.sleep(this.delayBetweenUrls);
}
}
closeOutputStream();
}
private CrawlerUrl getNextUrl() throws Throwable {
CrawlerUrl nextUrl = null;
while ((nextUrl == null) && (!urlQueue.isEmpty())) {
CrawlerUrl crawlerUrl = this.urlQueue.remove();
//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取
//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap
//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免
if (doWeHavePermissionToVisit(crawlerUrl)
&& (!isUrlAlreadyVisited(crawlerUrl))
&& isDepthAcceptable(crawlerUrl)) {
nextUrl = crawlerUrl;
// System.out.println("Next url to be visited is " + nextUrl);
}
}
return nextUrl;
}
private String getContent(CrawlerUrl url) throws Throwable {
//HttpClient4.1的调用与之前的方式不同
HttpClient client = new DefaultHttpClient();
HttpGet httpGet = new HttpGet(url.getUrlString());
StringBuffer strBuf = new StringBuffer();
HttpResponse response = client.execute(httpGet);
if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {
HttpEntity entity = response.getEntity();
if (entity != null) {
BufferedReader reader = new BufferedReader(
new InputStreamReader(entity.getContent(), "UTF-8"));
String line = null;
if (entity.getContentLength() > 0) {
strBuf = new StringBuffer((int) entity.getContentLength());
while ((line = reader.readLine()) != null) {
strBuf.append(line);
}
}
}
if (entity != null) {
nsumeContent();
}
}
//将url标记为已访问
markUrlAsVisited(url);
return strBuf.toString();
}
public static boolean isContentRelevant(String content,
Pattern regexpPattern) {
boolean retValue = false;
if (content != null) {
//是否符合正则表达式的条件
Matcher m = regexpPattern.matcher(content.toLowerCase());
retValue = m.find();
}
return retValue;
}
public List extractUrls(String text, CrawlerUrl crawlerUrl) {
Map urlMap = new HashMap();
extractHttpUrls(urlMap, text);
extractRelativeUrls(urlMap, text, crawlerUrl);
return new ArrayList(urlMap.keySet());
}
private void extractHttpUrls(Map urlMap, String text) {
Matcher m = (text);
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
// System.out.println("Term = " + term);
if (term.startsWith("http")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
urlMap.put(term, term);
System.out.println("Hyperlink: " + term);
}
}
}
}
private void extractRelativeUrls(Map urlMap, String text,
CrawlerUrl crawlerUrl) {
Matcher m = relativeRegexp.matcher(text);
URL textURL = crawlerUrl.getURL();
String host = textURL.getHost();
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
if (term.startsWith("/")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
String s = //" + host + term;
urlMap.put(s, s);
System.out.println("Relative url: " + s);
}
}
}

}
public static void main(String[] args) {
try {
String url = "";
Queue urlQueue = new LinkedList();
String regexp = "java";
urlQueue.add(new CrawlerUrl(url, 0));
NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,
regexp);
// boolean allowCrawl = crawler.areWeAllowedToVisit(url);
// System.out.println("Allowed to crawl: " + url + " " +
// allowCrawl);
crawler.crawl();
} catch (Throwable t) {
System.out.println(t.toString());
t.printStackTrace();
}
}

⑵ 如何用Python爬虫抓取网页内容

爬虫流程
其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器，打开目标网站。
获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get('http://www.douban.com')
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'>

⑶ 怎样用Python设计一个爬虫模拟登陆知乎

先来说一下，爬虫模拟登陆的基本原理吧，我也是刚开始接触对于一些深层次的东西也不是掌握的很清楚。首先比较重要的一个概念就是cookie，我们都知道HTTP是一种无状态的协议，也就是说当一个浏览器客户端向服务器提交一个request，服务器回应一个response后，他们之间的联系就中断了。这样就导致了这个客户端在向服务器发送请求时，服务器无法判别这两个客户端是不是一个了。这样肯定是不行的。这时cookie的作用就体现出来了。当客户端向服务器发送一个请求后，服务器会给它分配一个标识（cookie），并保存到客户端本地，当下次该客户端再次发送请求时连带着cookie一并发送给服务器，服务器一看到cookie，啊原来是你呀，这是你的东西，拿走吧。所以一个爬虫模拟登陆就是要要做到模拟一个浏览器客户端的行为，首先将你的基本登录信息发送给指定的url，服务器验证成功后会返回一个cookie，我们就利用这个cookie进行后续的爬取工作就行了。
我这里抓包用的就是chrome的开发者工具，不过你也可以使用Fiddler、Firebug等都可以，只不过作为一名前端er对chrome有一种特殊的喜爱之情。准备好工具接下来就要打开知乎的登陆页面并查看https://www.hu.com/#signin 我们可以很容易发现这个请求发送的就是登录信息，当然我使用手机登陆的用邮件登陆的是最后结尾是email

所以我们只需要向这个地址post数据就行了

phone_num 登录名
password 密码
captcha_type 验证码类型(这个参数着这里并没有实质作用)
rember_me 记住密码
_xsrf 一个隐藏的表单元素知乎用来防御CSRF的（关于CSRF请打开这里）我发现这个值是固定所以就在这里直接写死了若果有兴趣的同学可以写一个正则表达式把这部分的值提取出来这样更严谨一些。

# -*- coding:utf-8 -*-
import urllib2
import urllib
import cookielib
posturl = 'https://www.hu.com/login/phone_num'
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/52.0.2743.116 Safari/537.36',
'Referer':'https://www.hu.com/'
}
value = {
'password':'*****************',
'remember_me':True,
'phone_num':'*******************',
'_xsrf':'**********************'
}
data=urllib.urlencode(value)
#初始化一个CookieJar来处理Cookie
cookieJar=cookielib.CookieJar()
cookie_support = urllib2.HTTPCookieProcessor(cookieJar)
#实例化一个全局opener
opener=urllib2.build_opener(cookie_support)
request = urllib2.Request(posturl, data, headers)
result=opener.open(request)
print result.read()

当你看到服务器返回这个信息的时候就说明你登陆成功了
{"r":0,
"msg": "\u767b\u5f55\u6210\u529f"
}
#翻译过来就是 “登陆成功” 四个大字
然后你就可以用这个身份去抓取知乎上的页面了
page=opener.open("https://www.hu.com/people/yu-yi-56-70")
content = page.read().decode('utf-8')
print(content)

这段代码就是通过实例化一个opener对象保存成功登陆后的cookie信息，然后再通过这个opener带着这个cookie去访问服务器上关于这个身份的完整页面。

⑷ 如何实现pyhton模拟打开浏览器，然后实现打开特定网页，再模拟点击该网页的button

如果是winform 程序可以使用如下方法：Process.Start("iexplore.exe", "http://网址"); // 使用ie找开网址Process.Start("http://网址"); // 使用本机默认浏览器打开网址

⑸ 如何使用python进行浏览器行为模拟

你可以使用python的webbrowser库来模拟浏览器：

url=''

#OpenURLinanewtab,ifabrowserwindowisalreadyopen.
webbrowser.open_new_tab(url+'doc/')

#OpenURLinnewwindow,raisingthewindowifpossible.
webbrowser.open_new(url)

或者使用python的第三方库， selenium

fromseleniumimportwebdriver
fromselenium.webdriver.common.keysimportKeys

browser=webdriver.Firefox()

browser.get('
)
assert'Yahoo!'inbrowser.title

elem=browser.find_element_by_name('p')#Findthesearchbox
elem.send_keys('seleniumhq'+Keys.RETURN)

browser.quit()

如果解决了您的问题请采纳！
如果未解决请继续追问！

⑹ 如何将爬虫完全伪装成为用户在浏览器的点击行为

1.伪装http header，我们可以使用phanomjs的API来实现：

派生到我的代码片
1. page.customHeaders = {
2. "Referer" : referrer,
3. "User-Agent" : "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER 1.1"
4. };

2.伪造referer欺骗js，这一点其实就要麻烦一些：我们需要首先打开referer页面，然后再模拟点击消息转到目的网站，具体方法如下：

1. page.onLoadFinished = function(status){
2.
3. // Only once do
4. if ( page.firstLoad ) {
5. page.firstLoad = false;
6. // Inject and Click a Link to our target
7. page.evaluate(function (href) {
8. // Create and append the link
9. var link = document.createElement('a');
10. link.setAttribute('href', href);
11. document.body.appendChild(link);
12.
13. // Dispatch Click Event on the link
14. var evt = document.createEvent('MouseEvents');
15. evt.initMouseEvent('click', true, true, window, 1, 1, 1, 1, 1, false, false, false, false, 0, link);
16. link.dispatchEvent(evt);
17. }, targetUrl);
18. } else {
19. // 此处我们已经成功伪造referer信息，并且打开Target url页面
20. console.log(targetUrl+"\t"+page.url);
21.
22. };
23. };
3.伪造User Agent欺骗js，这一点其实就要麻烦一些，但是我们也可以通过phantomjs的API来实现：
在CODE上查看代码片
1. page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER";

4. 使用代理，这个phantomjs支持的就更好啦，调用的时候加入代理的参数即可：
派生到我的代码片
1. phantomjs --proxy=ip:port

5.添加cookies(我知道phantomjs设置cookies可行，目前还没有验证，据称有以下三种方法):

page.customHeaders = {Cookie: xxx}
phantom.addCookie({
'name': 'yandexuid',
'value': '21611441383258191',
'domain': '.yandex.ru'))
});
phantomjs --cookies-file=cookies.txt

说到这里其实我们已经得到了一个动态的爬虫，它可以之行js代码，可以抓取到网页的动态内容，具有浏览器的header并且无法被js、ajax、java、php代码识别，甚至也无法被后台的日志分析识别。目前为止该方法的qps并不高，因为加载js和phantomjs并发性能不高。
其实这个爬虫有很多的用处：
1.伪造点击信息，最近CNZZ公布了中小网站的流量来源中30%是来自奇虎360的，众所周知CNZZ是植入js代码统计网站的访问量和来源的。这些完全可以用我们的代码伪造访问量，并且伪造访问来源呀。
2. 爬取网站动态内容，有很多网站是基于ajax和js设计的，现在我们就可以爬取到这些代码执行得到的数据。
3.逃避反爬虫策略，这个就太明显了。

⑺ python爬虫能干什么

python爬虫就是模拟浏览器打开网页，获取网页中想要的那部分数据。利用爬虫我们可以抓取商品信息、评论及销量数据；可以抓取房产买卖及租售信息；可以抓取各类职位信息等。

爬虫：

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

（推荐教程：Python入门教程）

通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。

python爬虫能做什么？

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据(图片、视频) 爬到本地，进而提取自己需要的数据存放起来使用。

利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：

爬取知乎优质答案，为你筛选出各话题下最优质的内容。

抓取淘宝、京东商品、评论及销量数据，对各种商品及用户的消费场景进行分析。

抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。

爬取各类职位信息，分析各行业人才需求情况及薪资水平。

爬虫的本质：

爬虫的本质就是模拟浏览器打开网页，获取网页中我们想要的那部分数据。

⑻ python爬虫模拟登录是什么意思

有些网站需要登录后才能爬取所需要的信息，此时可以设计爬虫进行模拟登录，原理是利用浏览器cookie。

一、浏览器访问服务器的过程：
（1）浏览器（客户端）向Web服务器发出一个HTTP请求（Http request）；
（2）Web服务器收到请求，发回响应信息（Http Response）；
（3）浏览器解析内容呈现给用户。

二、利用Fiddler查看浏览器行为信息：

Http请求消息：

（1）起始行：包括请求方法、请求的资源、HTTP协议的版本号

这里GET请求没有消息主体，因此消息头后的空白行中没有其他数据。

（2）消息头：包含各种属性

（3）消息头结束后的空白行

（4）可选的消息体：包含数据

Http响应消息：

（1）起始行：包括HTTP协议版本，http状态码和状态

（2）消息头：包含各种属性

（3）消息体：包含数据

可以发现，信息里不仅有帐号（email）和密码（password），其实还有_xsrf（具体作用往后看）和remember_me（登录界面的“记住我”）两个值。

那么，在python爬虫中将这些信息同样发送，就可以模拟登录。

在发送的信息里出现了一个项：_xsrf，值为

这个项其实是在访问知乎登录网页https://www.hu.com/#signin时，网页发送过来的信息，在浏览器源码中可见：

所以需要先从登录网址https://www.hu.com/#signin获取这个_xsrf的值，

并连同帐号、密码等信息再POST到真正接收请求的http://www.hu.com/login/email网址。

（2）获取_xsrf的值：
爬取登录网址https://www.hu.com/#signin，从内容中获取_xsrf的值。
正则表达式。

（3）发送请求：
xsrf = 获取的_xsrf的值
data = {"email":"xxx","password":"xxx","_xsrf":xsrf}
login = s.post(loginURL, data = data, headers = headers)
loginURL：是真正POST到的网址，不一定等同于登录页面的网址；

（4）爬取登录后的网页：
response = s.get(getURL, cookies = login.cookies, headers = headers)
getURL：要爬取的登陆后的网页；
login.cookies：登陆时获取的cookie信息，存储在login中。

（5）输出内容：
print response.content

五、具体代码：

[python]view plain

#-*-coding:utf-8-*-
#author:Simon
#updatetime:2016年3月17日17:35:35
#功能：爬虫之模拟登录，urllib和requests都用了...
importurllib
importurllib2
importrequests
importre
headers={'User-Agent':'Mozilla/5.0(WindowsNT6.2)AppleWebKit/535.11(KHTML,likeGecko)Chrome/17.0.963.12Safari/535.11'}
defget_xsrf():
firstURL="http://www.hu.com/#signin"
request=urllib2.Request(firstURL,headers=headers)
response=urllib2.urlopen(request)
content=response.read()
pattern=re.compile(r'name="_xsrf"value="(.*?)"/>',re.S)
_xsrf=re.findall(pattern,content)
return_xsrf[0]
deflogin(par1):
s=requests.session()
afterURL="https://www.hu.com/explore"#想要爬取的登录后的页面
loginURL="http://www.hu.com/login/email"#POST发送到的网址
login=s.post(loginURL,data=par1,headers=headers)#发送登录信息，返回响应信息（包含cookie）
response=s.get(afterURL,cookies=login.cookies,headers=headers)#获得登陆后的响应信息，使用之前的cookie
returnresponse.content
xsrf=get_xsrf()
print"_xsrf的值是："+xsrf
data={"email":"xxx","password":"xxx","_xsrf":xsrf}
printlogin(data)

六、补充：

用知乎网做完试验，发现这里好像并不需要发送_xsrf这个值。

不过有的网站在登陆时确实需要发送类似这样的一个值，可以用上述方法。

⑼ 爬虫都可以干什么

python是一种计算机的编程语言，是这么多计算机编程语言中比较容易学的一种，而且应用也广，这python爬虫是什么意思呢？和IPIDEA全球http去了解一下python爬虫的一些基础知识。

一、python爬虫是什么意思

爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

即：打开一个网页，有个工具，可以把网页上的内容获取下来，存到你想要的地方，这个工具就是爬虫。

Python爬虫架构组成：

1.网页解析器，将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。

2.URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。

3.网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)

4.调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。

5.应用程序：就是从网页中提取的有用数据组成的一个应用。

二、爬虫怎么抓取数据

1.抓取网页

抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，比如模拟用户登陆、模拟session/cookie的存储和设置。

2.抓取后处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。上文介绍了python爬虫的一些基础知识，相信大家对于“python爬虫是什么意思”与“爬虫怎么抓取数据”有一定的的认识了。现在大数据时代，很多学python的时候都是以爬虫入手，学习网络爬虫的人越来越多。通常使用爬虫抓取数据都会遇到IP限制问题，使用高匿代理，可以突破IP限制，帮助爬虫突破网站限制次数。

⑽ Python爬虫模拟登陆

你首先要了解登录的过程是什么
先要利用头来模拟伪装成浏览器访问网站
post是把数据发送给网站后台，get就相反（一般是这种情况）
把post的数据也做成一样的样式
访问网站，如果是200，则表示成功了

最后你可以使用bs4之类的，根据正则匹配获取相关的数据或者下载保存到本地

通过爬虫实现模拟浏览器访问功能

与通过爬虫实现模拟浏览器访问功能相关的内容