如何爬web页面

来源：南宁青秀区达内IT教育时间：2023/4/27 17:37:01

　　比如我们需要爬虫一个招聘网站上的相关招聘信息，来用作我们之后的处理和操作的话，我们需要先右键当前网页，来查看我们的网页源代码。可以看见，下图就是我们网页源代码的一部分。

　　然后我们需要翻阅源代码，来看到我们需要爬虫的相关内容，我们可以看到，我们需要的相关内容全部被标签所包围，因此我们初步采用的正则表达式肯定就是包含有p标签的筛选。

　　但是在这里我们需要注意的是，直接通过这样子筛选是很有可能又弊端的，因为html的标签之中，这样子的标签也是很常见的，这样子仅仅要通过这样子筛选是肯定会漏掉的，因此我们拟采用.*?这个方法来进行筛选，别的标签比如div span 也是同理。

　　接下来我们使用java爬虫的方式来测试一下我们爬出来的结果，当然python爬虫也是一样的，我们写上我们需要的正则之后，就可以爬出我们相应的结果了，可以看到，其中的内容要比我们想要的内容多，我们只需要这样的标签之后加上1.这样子的格式的就行了，因此我们需要更改我们的正则表达式。[0-9][.]{1}.*?

　　这个就是我们较终选用的正则表达式，这个用来匹配我们的1. 2. 3. 这样子格式的文件，可以看到匹配结果很令人满意，它成功的筛选了所有我们的需要的内容。

如何爬web页面

推荐课程更多>

立即申请体验课