查看原文
其他

《pandas进阶宝典》终于面世了!

wLsq Python数据科学 2023-09-04

大家好,我是东哥。

在近几年我越发地看到使用pandas的朋友越来越多了,尤其是刚接触python和数据分析的同学,在似懂非懂的阶段苦于没有一个好的指导。

我之前在公众号写过不少关于pandas的文章,现在总阅读差不多超20万了。这些文章很零散我一直没有时间做一次系统的梳理,这次下决心我决定启动,现在终于打磨差不多了。

总共耗费一个月的闲暇时间加几晚通宵,最终肝出了一本小册子《pandas进阶宝典》共约400页。全文共包括三大部分基础篇、进阶篇、实战篇,30个章节和150多小节,每一部分都包含了详细的方法介绍和案例展示,各种骚操作和进阶玩法全在里面了,还配有大量我原创的绘图帮助大家理解。

话不多说,直接展示具体内容,用实力说话。

内容展示

01 大纲目录

一、基础篇

    1.数据分析基础

        1.1.数据类型

            1.1.1.类型速查

            1.1.2.类型检查

            1.1.3.类型筛选

            1.1.4.类型转换

                1)转数值型

                2)转字符型型

                3)转时间类型

                4)转分类型

                5)智能转换

        1.2.数据结构

            1.2.1.创建series

                1)通过元组和列表

                2)通过ndarray

                3)通过字典

                4)通过标量

            1.2.2.创建dataframe

                1)创建空dataframe

                2)通过列表

                3)通过字典

            1.2.3.series转其他

                1)转dataframe

                2)转字典

                3)转列表

                4)转json

                5)转标量

            1.2.4.dataframe转其他

                1)转字典

                2)转json

                3)转series

            1.2.5.其他转dataframe

                1)字典转

                2)结构数据转

                3)嵌套json转

        1.3.读写数据

            1.3.1.文件路径

                1)相对路径

                2)绝对路径

            1.3.2.读取数据

                1)read_csv

                2)read_excel

                3)read_json

                4)read_sql

                5)read_html

                6)read_pickle

                7)read_clipboard

            1.3.3.写入数据

                1)to_csv

                2)to_excel

                3)to_json

                4)to_sql

                5)to_html

                6)to_pickle

                7)to_clipboard

        1.4.数据排序

            1.4.1.索引排序

                1)Series

                2)DataFrame

            1.4.2.数值排序

                1)Series

                2)DataFrame

        1.5.数据筛选

            1.5.1.loc

                1)行筛选

                2)列筛选

                3)赋值

            1.5.2.iloc

                1)单行

                2)单列

                3)多行

                4)多列

                5)多行和多列

            1.5.3.sample

                1)固定数量

                2)固定比例

                3)索引重排

                4)有放回抽取

    2.数据形式变化

        2.1.数据分组

            2.1.1.分组方式

                1)列筛选

                2)排序

                3)索引重置

                4)空值统计

                5)多级索引

            2.1.2.分组聚合

                1)描述性统计

                2)计数排序

            2.1.3.分组可视化

                1)箱型图

                2)直方图

        2.2.数据分箱(★★★★)

            2.2.1.分箱方法

                1)等距分箱

                2)自定义分箱

                3)等频分箱

            2.2.2.分箱合并

                1)分类合并

                2)数值合并

        2.3.数据合并系列(★★★★)

            2.3.1.concat

                1)轴方向

                2)索引处理

                3)层次索引

                4)列名排序

            2.3.2.merge

                1)连接键

                2)连接方式

                3)连接标识

            2.3.3.join

                1)索引合并

                2)指定列合并

                3)多表合并

        2.4.数据透视系列(★★★★)

            2.4.1.pivot

            2.4.2.pivot_table

                1)填充空值

                2)多级索引

                3)多统计函数

                4)数据汇总

            2.4.3.melt

                1)默认全部列

                2)指定部分列

            2.4.4.stack

                1)单层级列

                2)多层级列

            2.4.5.unstack

                1)单层索引

                2)多层索引

            2.4.6.crosstab

                1)频率表

                2)透视表

    3.数据清洗处理

        3.1.数据清洗

            3.1.1.缺失值

                1)缺失判断

                2)缺失统计

                3)缺失删除

                4)缺失筛选

                5)缺失填充

            3.1.2.重复值

                1)重复查询

                2)重复统计

                3)重复删除

                4)索引重置

                5)先排序再去重

            3.1.3.数据替换

                1)loc/iloc赋值

                2)replace替换

                3)mask替换

        3.2.文本处理

            3.2.1.文本格式

                1)大小写变换

                2)格式判断

                3)文本对齐

                4)计数编码

            3.2.2.文本拆分

            3.2.3.文本替换

                1)replace替换

                2)切片替换

                3)重复替换

            3.2.4.文本拼接

                1)单series序列拼接

                2)多series序列拼接

            3.2.5.文本提取

                1)extract

                2)extractall

            3.2.6.文本查询

                1)find

                2)findall

            3.2.7.文本包含

            3.2.8.文本哑变量

        3.3.时间处理

            3.3.1.时间类型

            3.3.2.时间索引创建

                1)date_range

                2)timedelta_range

                3)period_range

            3.3.3.时间类型转换

                1)to_datetime

                2)to_timedelta

            3.3.4.时间类型属性

                1)Timestamp

                2)TimeDelta

                3)Period

                4)时间索引

    3.4.分类处理

            3.4.1.分类数据

                1)分类数据表示

                2)分类数据对象

            3.4.2.分类数据创建

                1)Categorical创建

                2)dtype创建

                3)cut函数创建

                4)转换类型创建

            3.4.3.分类数据操作

                1)类别重命名

                2)类别排序

                3)类别增/减

                4)类别设置

    4.数据可视化

        4.1.图形可视化

            4.1.1.基础可视化

                1)折线图

                2)条形图

                3)直方图

                4)箱型图

                5)面积图

                6)散点图

                7)饼图

                8)六边形分箱图

                9)子图

            4.1.2.高级可视化

                1)散点矩阵图

                2)安德鲁斯曲线图

                3)平行坐标图

                4)自相关图

                5)雷达图

                6)引导图

                7)滞后图

                8)图中绘制表格

        4.2.表格可视化

            4.2.1.基础样式

                1)条形图

                2)渐变

                3)高亮

                4)格式

            4.2.2.自定义样式

                1)数据样式

                2)索引样式

            4.2.3.组合样式

            4.2.4.动态样式

    5.数据格式

        5.1.option格式

            5.1.1.使用方法

                1)参数描述

                2)参数查询

                3)参数设置

                4)参数重置

            5.1.2.常见格式配置

                1)行显示

                2)列显示

                3)浮点格式

                4)绘图

                5)info显示

                6)计算设置

        5.2.打印格式

            5.2.1.dataframe

            5.2.2.打印美化

二、进阶篇

    1.高级函数

        1.1.函数应用

            1.1.1.apply

                1)series

                2)dataframe

                3)传入参数

                4)传入关键字

            1.1.2.applymap

            1.1.3.map

                1)字典映射

                2)函数映射

            1.1.4.transform

                1)单个函数

                2)多个函数

            1.1.5.pipe

                1)单个函数

                2)链式调用

                3)特殊传参方式

        1.2.表达式求值

            1.2.1.eval

                1)单列变量

                2)多列变量

                3)局部变量

                4)类型解析

            1.2.2.query

    2.行列操作

        2.1.新增列

            2.1.1.assign

                1)函数

                2)Series

                3)多列

                4)链式

        2.2.插入列

            2.2.1.insert

        2.3.移除列

            2.3.1.pop

            2.3.2.difference

        2.4.列转行

            2.4.1.explode

                1)重置索引

                2)去重

                3)格式调整

        2.5.行转列

            2.5.1.groupby聚合

                1)apply

                2)agg

    3.高级过滤

        3.1.数据过滤

            3.1.1.query

                1)简单条件

                2)组合条件

                3)定义变量

            3.1.2.where

                1)默认空值

                2)指定other

                3)组合条件

            3.1.3.mask

            3.1.4.np.where

                1)赋值

                2)筛选

            3.1.5.isin

                1)单列判断

                2)多列判断

                3)多列行判断

        3.2.行列过滤

            3.2.1.filter

                1)固定列名

                2)正则表达式

                3)模糊查询

                4)链式组合

    4.高级分组应用

        4.1.窗口计算

            4.1.1.滚动窗口

                1)概念理解

                2)rolling

                3)聚合统计

            4.1.2.扩展窗口

                1)概念理解

                2)expanding

                3)聚合统计

            4.1.3.指数加权窗口

        4.2.重采样计算

            4.2.1.resample

                1)指定列名

                2)开闭区间指定

                3)输出结果控制

                4)聚合统计

            4.2.2.上采样

                1)ffill

                2)bfill

                3)nearest

                4)fillna

                5)asfreq

                6)interpolate

            4.2.3.应用函数

                1)agg

                2)apply

                3)transform

                4)pipe

        4.3.分组计算

            4.3.1.分组聚合

                1)最值索引

                2)agg用法

            4.3.2.分组转换

                1)分组求和

                2)分组求累计和

                3)分组排序

                4)分组偏移

                5)分组滑窗

                6)分组重采样

            4.3.3.分组过滤

                1)内置方法

                2)filter用法

            4.3.4.apply方法

                1)分组统计描述

                2)聚合自定义

    5.效率提升

        5.1.运行加速

            5.1.1.for循环加速

                1)for循环

                2)iterrows循环

                3)apply加速

                4)矢量化加速

                5)矢量化优化

                6)Numpy加速

            5.1.2.I/O加速

                1)Feather

                2)Parquet

            5.1.3.第三方库

                1)Dask

                2)Modin

                3)DataTable

                4)Polars

                5)Vaex

                6)cuDF

        5.2.内存优化

            5.2.1.分类数据优化

                1)优化原理

                2)优化效果

            5.2.2.数值型优化


上下滑动☝

02 图文展示

<<< 左右滑动见更多 >>>


03代码展示

以上只是内容展示,实际你将获得的更多。

你将得到什么?

购买这个小册子你将获得:

  • 400页图文讲解+配套完整代码和文件

  • 一本纸质技术书籍(免费赠送)

  • 交流群技术答疑

文档及代码会持续更新,更多骚操作和实战案例会不断加入。有效期为永久,随时可翻阅,每次内容更新会第一时间进行通知。

除了pandas进阶宝典的文档以及全部代码以外,还额外免费赠送一本纸质的技术书籍(书单池会动态更新)可随意挑选。

可以加入pandas进阶技术交流群,有问题提问,一起讨论和学习。

如何加入?

目前定价为99元,如果信任东哥,直接给这篇文章打赏,或者加我V:ydyu8677,记得备注:pandas
学技术、拿书、交朋友,这个性价比我就不多说了,懂得自然懂。
如果对内容还不是很清楚的,欢迎私聊。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存