首先,让我们回顾一下入门python爬虫的四个步骤吧:
而解析数据,其用途就是在爬虫过程中将服务器返回的html源代码转换为我们能读懂的格式。那么,接下来就正式进入到解析数据篇的内容啦。
part 1:了解html
html(hyper text markup language)为超文本标记语言。简单来讲,就是一种用于构建网页的编程语言。其主要组成部分为网页头(《head》元素)与网页体(《body》元素)。一般情况下,网页头部分会定义html文档的编码以及网页的标题。而网页体部分则决定着一个网页中的正文内容。
在一个html文档内,我们可以看到许多被《》括住的内容,它们被称作一个标签。标签通常是成对出现的。比如网页头部分的代码中含有《head》以及《/head》,网页体部分的代码中含有《body》以及《/body》。
在了解过html的基本信息之后,下一步我们就可以去解析这些数据了。
part 2:下载beautifulsoup库
在解析与提取数据的过程中,我们会用到一个强大的工具,即beautifulsoup库。由于beautifulsoup不属于python标准库,因此需要单独进行下载。mac用户需打开终端,输入代码pip install beautifulsoup4。windows用户需运行cmd,输入代码pip install beautifulsoup4。下载完成后,在编辑器内输入以下代码即可实现beautifulsoup库的调用。
part 3:运用beautifulsoup解析数据
具体用法:变量名称 = beautifulsoup(需要解析的数据,‘html.parser’)
备注:1. beautifulsoup()内的第一个参数,即需要解析的数据,类型必须为字符串,否则运行时系统会报错。2. ‘html.parser’为python内置库中的一个解析器。它的运行速度较快,使用方法也比较简单。但是它并不是唯一的解析器,大家可以使用其它的解析器进行操作,但是具体用法可能会略有不同。
总结:
CTP技术的概念、优劣势及发展前景
Intel PXA255处理器的U-B00t启动过程、移植分析及下载调试
如何使用示波器较准确的测量电源的噪声
LED芯片来源检测
典型的PLC网关BL102常见问题答疑
Python爬虫入门知识:解析数据篇
【智慧园区管理平台,软硬件集成系统建设】
AI会否让我们变成透明人
除颤器测试仪的用途及操作方法
变频器与PLC控制柜设计的六大内容要求,你都知道吗?
基于基本图像处理技术的数据增强方法
发光二极管的颜色介绍
空中客车签署研究氢枢纽协议 华为发布“云网核心能力”创新成果
谷歌正在重新思考VR头显的连接系统
CAN FD 如何使非汽车应用受益
继电器的选择原理
小米VR一体机体验 实际体验目前究竟能到什么水平
返回电流及其与通孔的关系
用区块链技术构建共享存储新生态
荣耀9什么时候上市?华为P10深受内存门影响,荣耀9有望提前发布