用Python爬取百度搜索结果
一、前言
众所周知,百度上直接搜索关键字会出来一大堆东西,时常还会伴随有广告出现,不小心就点进去了,还得花时间退出来,有些费劲。
最近群里有个小伙伴提出一个需求,需要获取百度上关于粮食的相关讲话文章标题和链接。正好小编最近在学习爬虫,就想着拿这个需求来练练手。我们都知道,对Python来说,有大量可用的库,实现起来并不难,动手吧。
二、项目目标
爬取百度上关键字为“粮食”的搜索结果,并保存,提交给客户,用于进一步分析我国粮食政策。
三、项目准备
软件:PyCharm
需要的库:json,requests,etree
四、项目分析
1)如何进行关键词搜索?
利用response库,直接Get网址获得搜索结果。
2)如何获取标题和链接?
利用etree对原代码进行规范梳理后,通过Xpath定位到文章标题和href,获取标题和文章链接。
3)如何保存搜索结果?
新建txt文件,对搜索结果循环写入,保存即可。
五、项目实现
1、第一步导入需要的库
importjson
importrequests
fromlxmlimportetree
2、第二步用requests进行请求搜索
headers={
"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/88.0.4324.104Safari/537.36"
}
response=requests.get('https://www.baidu.com/s?wd=粮食&lm=1',headers=headers)
3、第三步对获取的源代码进行整理分析,通过Xpath定位需要的资源
r=response.text
html=etree.HTML(r,etree.HTMLParser())
r1=html.xpath('//h3')
r2=html.xpath('//*[@class="c-abstract"]')
r3=html.xpath('//*[@class="t"]/a/@href')
4、第四步把有用资源循环读取保存
foriinrange(10):
r11=r1[i].xpath('string(.)')
r22=r2[i].xpath('string(.)')
r33=r3[i]
withopen('ok.txt','a',encoding='utf-8')asc:
c.write(json.dumps(r11,ensure_ascii=False)+'\n')
c.write(json.dumps(r22,ensure_ascii=False)+'\n')
c.write(json.dumps(r33,ensure_ascii=False)+'\n')
print(r11,end='\n')
print('------------------------')
print(r22,end='\n')
print(r33)
以上内容为大家介绍了用Python爬取百度搜索结果,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注IT培训机构:千锋教育。http://www.mobiletrain.org/
data:image/s3,"s3://crabby-images/b75e3/b75e3b33da580348eec43edf6365bfc9ad839ce4" alt=""
相关推荐HOT
更多>>data:image/s3,"s3://crabby-images/c6081/c6081415a4bbab5a60c44a65e0104835b7d4f381" alt=""
python中ndarray与list转换的方法
python中ndarray与list转换的方法在python数据类型中,list元素可以任意类型组合,而ndarray元素类型必须相同,但是ndarray可以更方便的对多维...详情>>
2023-11-10 08:51:14data:image/s3,"s3://crabby-images/56efa/56efaa42b832c4f9254762547b79b3a938558160" alt=""
python中OrdereDict如何使用?
python中OrdereDict如何使用?我们在对数据进行处理时,如果能够使它们保存顺序的排序,那么用起来会非常的便利。不过字典本身就是没有顺序的,...详情>>
2023-11-10 07:05:00data:image/s3,"s3://crabby-images/1cdb2/1cdb2be4dd55029c8c57175f9db722a9a207dffb" alt=""
python中如何使用scipy.fftpack模块计算快速傅里叶变换?
python中如何使用scipy.fftpack模块计算快速傅里叶变换?在编程中,快速傅里叶变换是工程中非常有价值的一类算法,它可以将时域和频域的信号相互...详情>>
2023-11-10 05:50:23data:image/s3,"s3://crabby-images/c6081/c6081415a4bbab5a60c44a65e0104835b7d4f381" alt=""
zip()函数如何在python中遍历多个列表?
zip()函数如何在python中遍历多个列表?下面我们就python中zip的说明、语法、使用注意点进行讲解,然后带来遍历多个列表的实例。1、说明zip()函...详情>>
2023-11-10 05:38:33热门推荐
python concat函数有何用法?
沸python里函数装饰器怎么使用?
热如何实现python中的continue语句?
热python中的冒泡排序是什么?
新python中str函数是什么
如何使用python实现项目进度显示?
python中ndarray与list转换的方法
python复制文件的方法整理
Python中numpy数组如何添加元素
python有几种可视化图形库?
python中xlwings是什么?
python上下文管理器的基本介绍
Python自动化测试基础必备知识点一
python中OrdereDict如何使用?
技术干货
data:image/s3,"s3://crabby-images/a3beb/a3bebdfa178de8572b7532f511a65efe4d8bf508" alt=""
data:image/s3,"s3://crabby-images/37225/3722508efc489d7ef0fc662ed3f98f8d8d4ba2a3" alt=""
data:image/s3,"s3://crabby-images/87628/87628e6faf50815acb5233979d4f39244b0df425" alt=""
data:image/s3,"s3://crabby-images/1ad9f/1ad9f7ce9012ace5f30ffc2df7e54848097a2f82" alt=""
data:image/s3,"s3://crabby-images/a2da2/a2da27b949b71be6e44966102476c75b2b13e356" alt=""
data:image/s3,"s3://crabby-images/b92ed/b92ed2023f67952117432c818446995811999446" alt=""
data:image/s3,"s3://crabby-images/c6081/c6081415a4bbab5a60c44a65e0104835b7d4f381" alt=""