Pandas | 剔除csv重复数据

 时间:2026-02-15 13:28:50

1、原来的文件读入代码

df = pd.read_csv('x.csv', index_col='DATE', parse_dates=True)

Pandas | 剔除csv重复数据

2、上面的代码其实是比较严谨的,只不过暂时跟直接读入文件相比在这件事上好像没有优势

df = pd.read_csv('x.csv')

Pandas | 剔除csv重复数据

3、在步骤②的基础上,直接就能把重复数据剔除掉

df = pd.read_csv('x.csv')

df = df.drop_duplicates(subset='DATE', keep='last')

Pandas | 剔除csv重复数据

4、而在步骤①代码基础上,则会报错(相信大家都碰到过索引列的特殊)

df = pd.read_csv('x.csv', index_col='DATE', parse_dates=True)

df = df.drop_duplicates(subset='DATE', keep='last')

Pandas | 剔除csv重复数据

5、我们来说一下步骤①和步骤②的区别。

首先,是否指定索引这个就不说了,太明显了。我们来看两个图。

Pandas | 剔除csv重复数据

Pandas | 剔除csv重复数据

6、上图看出,是否解析时间序列将导致DATE列数据类型的不同,而后续的处理是迫切需要datetime类型的。于是我们这样处理:

df = pd.read_csv('x.csv', parse_dates=['DATE']).dropna().drop_duplicates(subset='DATE', keep='last').set_index('DATE')

Pandas | 剔除csv重复数据

7、搞定。

Pandas | 剔除csv重复数据

  • origin 图片粘贴到word
  • 供应链管理的核心是什么?
  • matlab中的曲线如何动起来
  • 元游掼蛋怎么关闭音效
  • wps怎么绘制圆柱体
  • 热门搜索
    保护地球的手抄报 关于感恩老师的手抄报 迎国庆的手抄报 快乐五一英语手抄报 为国家富强而奋斗的杰出人物手抄报 经典伴我行手抄报 好书伴我行手抄报 端午节手抄报简单好看 英语手抄报国庆节 儿童手抄报模板