python爬虫数据清洗的方法

python爬虫数据清洗的方法
python爬虫数据清洗的方法

1、清洗的场景

删除多列、更改数据类型、将分类变量转换为数字变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列(带条件)、转换时间戳(从字符串到日期时间格式)

2、实例

(1)数据提取

import requests
from bs4 import BeautifulSoup
 
url = 'http://www.cntour.cn'
strhtml = requests.get(url)
soup = BeautifulSoup(strhtml.text, 'lxml')
data = soup.select(
    '#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a'
)
for item in data:
    result = {
        'title': item.get_text(),
        'link': item.get('href')
    }
print(result)

(2)正则表达式的提取

先确定要提取的数据是标题和链接,标题在标签中,提取标签的文本采用get_text()方法。在标签的href属性中,提取标签中的href属性采用get()方法,在括号中指定要提取的属性数据,即get(‘href’)。

需要使用的正则符号如下:

\d 匹配数字

+ 匹配前一个字符1次或多次

运行代码:

import requests
import re
from bs4 import BeautifulSoup
 
url = 'http://www.cntour.cn'
strhtml = requests.get(url)
soup = BeautifulSoup(strhtml.text, 'lxml')
data = soup.select(
   '#main > div > div.mtop.firstMod.clearfix > div.centerBox > ul.newsList > li > a'
)
for item in data:
   result = {
       'title': item.get_text(),
       'link': item.get('href'),
       'ID': re.findall('\d+', item.get('href'))
   }
   print(result)

3.爬虫失败解决方案

现在很多网站对异常用户访问网站频次过高设置了安全访问机制。在这个时候,如果你想继续访问这个网站,HTTP代理ip非常重要。当前ip地址有限,可以更改新的ip地址,保证爬虫的顺利进行。推荐使用优质的代理ip资源,保证爬虫程序的顺利进行。

以上就是python爬虫数据清洗的方法,大多数时候,我们爬取过来的数据不如想象中的整理,需要经过数据清洗后再进行使用。更多Python学习指路:python爬虫

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注