首页软件开发代码讲解 Python 正文

我要投稿

python使用XPath解析数据爬取起点小说网数据

自学编程网 Python

2021-05-23 0 165

1. xpath 的介绍

xpath是一门在XML文档中查找信息的语言

优点：

可以在xml中找信息
支持HTML的查找
可以通过元素和属性进行导航

但是Xpath需要依赖xml的库，所以我们需要去安装lxml的库。

安装lxml库

我们先要安装lxml的库，直接在pycharm里安装即可：

python使用XPath解析数据爬取起点小说网数据

XML的树形结构：

python使用XPath解析数据爬取起点小说网数据

元素-元素-属性-文本

使用XPath选取节点：

nodename: 选取此节点的所有节点
/从根节点选择
// 从匹配选择的当前节点选择文档中的节点，而不考虑他们的位置
. 选择当前节点
.. 选择当前节点的父节点（此处是两个点，浏览器默认显示3个..）
/text() 获取当前路径下的文本内容
/@xxx 提取当前路径下标签的属性值

选取节点的表达式举例：

python使用XPath解析数据爬取起点小说网数据

2. 爬取起点小说网

在浏览器中获取书名和作者测试

在谷歌里安装一个xpath的插件

python使用XPath解析数据爬取起点小说网数据

在html中查找book-mid-info

python使用XPath解析数据爬取起点小说网数据

我们要获取小说的名称：也就是 //div[@class=\’book-mid-info\’]/h4/a/txt()

python使用XPath解析数据爬取起点小说网数据

再加一个获取作者：

python使用XPath解析数据爬取起点小说网数据

使用xpath获取起点小说网的数据

# 作者：互联网老辛
# 开发时间：2021/4/8/0008 8:24

import requests
from lxml import etree
url=\"https://www.qidian.com/rank/yuepiao\"
headers={\'user-agent\':\'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3861.400 QQBrowser/10.7.4313.400\'}
#发送请求
resp=requests.get(url,headers)
e=etree.HTML(resp.text) #类型转换，把str转变为class \'lxml.etree._ELement
print(type(e))
names=e.xpath(\'//div[@class=\"book-mid-info\"]/h4/a/text()\')
authors=e.xpath(\'//p[@class=\"author\"]/a[1]/text()\')
print(names)
print(authors)
#名称和作者对应
for name,authors in zip(names,authors):
    print(name,\":\",authors)

以上就是python使用XPath解析数据爬取起点小说网数据的详细内容，更多关于python XPath解析数据爬取起点小说网的资料请关注自学编程网其它相关文章！

收藏 (0) 点赞 (0)

遇见资源网 Python python使用XPath解析数据爬取起点小说网数据 http://www.ox520.com/28617.html

Python xpath 爬取起点小说网

自学编程网

上一篇：如何使用Python对NetCDF数据做空间相关分析

下一篇： python实现布尔型盲注的示例代码

常见问题

相关文章

python利用socket实现udp文件传输功能

python利用socket实现udp文件传输功能

Python

自学编程网

2年前 323

Python实现批量压缩文件/文件夹zipfile的使用

Python实现批量压缩文件/文件夹zipfile的使用

Python

自学编程网

2年前 540

python实现TCP文件接收发送

python实现TCP文件接收发送

Python

自学编程网

2年前 718

Python使用turtle模块绘制爱心图案

Python使用turtle模块绘制爱心图案

Python

自学编程网

2年前 387

猜你喜欢

python利用socket实现udp文件传输功能 2023-01-31
Python实现批量压缩文件/文件夹zipfile的使用 2023-01-31
python实现TCP文件接收发送 2023-01-31
Python使用turtle模块绘制爱心图案 2023-01-13
浅谈Python的字典键名可以是哪些类型 2023-01-13
Python日期时间模块arrow的具体使用 2023-01-13
python利用Appium实现自动控制移动设备并提取数据功能 2023-01-13
python用folium绘制地图并设置弹窗效果 2023-01-13
Python 面向对象编程的三大特性之继承 2023-01-13
利用Python快速绘制海报地图 2023-01-13

发表评论

暂无评论

官方客服团队

为您解决烦忧 - 24小时在线专业服务

联系官方团队在线提交工单

自学编程网

QQ 微信

微博

9875
文章
5,523,332
浏览
0
收藏
0
评论
23133
标签
19
分类

进主页

TA的动态

2023-03-16 一篇文章带你了解如何正确使用java线程池
2023-03-16 JAVA jvm系列--java内存区域
2023-03-16 JAVA代码块你了解吗
2023-03-16 超详细讲解Java线程池
2023-03-16 java Long类型转为String类型的两种方式及区别说明

总裁主题

分享最新WordPress教程共同学习，共同进步，共同成长！

热门文章

热门评论

如遇问题，请联系客服
联系客服请注明来意高端主题开发
微信公众号

总裁主题·高端主题
返回顶部