Python数据科学

其他

信贷风控中是如何做策略收紧的?

本篇来介绍下风控中的策略收紧,内容节选自《100天风控专家》第67期。历史策略文章:基于交叉表制定风控规则CART决策树制定风控规则决策树生成规则可视化(升级版)风控“规则集”的性能测试(Python实操)风控“规则集”的A类调优(Python实操)风控规则的A类调优:拒绝客户坏账预测一文读懂风控策略调优方法体系信贷风控中是如何做拒量回捞的?0.
7月11日 下午 1:25
其他

信贷风控中是如何做拒量回捞的?

本篇来介绍下风控中的拒绝回捞策略,内容节选自《100天风控专家》第65期。历史策略文章:基于交叉表制定风控规则CART决策树制定风控规则决策树生成规则可视化(升级版)风控“规则集”的性能测试(Python实操)风控“规则集”的A类调优(Python实操)风控规则的A类调优:拒绝客户坏账预测一文读懂风控策略调优方法体系1.
6月28日 上午 11:51
其他

终于搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。价值
6月24日 下午 11:57
其他

风控规则的A类调优:拒绝客户坏账预测

本篇更新策略篇的规则集A类调优Python实操篇,内容选自《100天风控专家》第64期。历史策略文章:基于交叉表制定风控规则CART决策树制定风控规则决策树生成规则可视化(升级版)风控“规则集”的性能测试(Python实操)风控“规则集”的A类调优(Python实操)本篇开始介绍策略调优方面的内容,从A类调优开始,规则阈值的放松具体如何来做。1.
6月24日 下午 11:57
其他

风控策略调优方法论体系

本篇来介绍下风控策略调优的方法论体系,内容选自《100天风控专家》第63期。历史策略文章:基于交叉表制定风控规则CART决策树制定风控规则决策树生成规则可视化(升级版)风控“规则集”的性能测试(Python实操)风控“规则集”的A类调优(Python实操)风控规则的A类调优:拒绝客户坏账预测1.什么是策略调优?风控策略开发上线后并不是一成不变的,它会受业务目标、市场变化、数据质量效果等很多方面的影响,比如:业务不同发展阶段下会有不同的业务目标,策略需跟随调整;客群质量变好或者变差,策略需进行放松或收紧的调整;监管政策变化,比如要求定价不得高于24%,策略需要调整;数据下线或者效果衰减,策略需进行下线或者替换的调整;…所以策略是需要不断调整优化的。简单理解,策略调优就是根据当前最新的变化对现有策略所做出的调整,以适应最新的变化。这个变化可能来自业务、市场、产品、数据、技术等可能影响策略的各种因素。因此我们说,没有最完美的策略,只有不同变化下最合适的策略。2.宏观策略调优宏观的风控策略的主基调要根据公司整体的风险偏好来制定,有保守、激进、平稳几类。一般情况下,在市场行情好的时期,策略可以偏激进一些,这时迅速占有市场用户为主要目标,可以快速扩大规模,形成规模效应。而在市场行情不好的时期,策略需要调整为保守一些,这时以稳定发展为主,大多是在经营前期吸收的存量客户,对于风险较高的新客户谨慎处理。因此,从大的市场环境角度考虑,这就是策略调优的价值所在。当然,在什么时间点切入做调优也是一个非常关键的点。因为风险往往是滞后的,如果在市场环境不好之前可以提前捕捉预判进行收紧,那么后期的贷后压力就会很小。而如果盲目乐观等到了市场变差的时候再做调整,那么后期风险集中,压力会非常大。3.
6月18日 下午 6:47
其他

风控规则的A类调优:拒绝客户坏账预测

本篇更新策略篇的规则集A类调优Python实操篇,内容选自《100天风控专家》第64期。历史策略文章:基于交叉表制定风控规则CART决策树制定风控规则决策树生成规则可视化(升级版)风控“规则集”的性能测试(Python实操)风控“规则集”的A类调优(Python实操)本篇开始介绍策略调优方面的内容,从A类调优开始,规则阈值的放松具体如何来做。1.
6月14日 下午 1:20
其他

终于搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
6月6日 下午 11:29
其他

pandas “图形,表格” 可视化大全

pandas的可视化方法,分为图形可视化和表格可视化。本次介绍完整的图形可视化使用方法,包括基础和高级两部分。基础可视化一种是针对series和dataframe的绘制方法,可以一行代码快速绘图。dataframe.plot.func()series.plot.func()func()主要是日常比较基础的图形,如下:折现图(line)条形图(bar)直方图(hist)箱箱型(box)面积图(area)散点图(scatter)饼图(pie)六边形箱型图(hexbin)核密度图(kde)子图import
6月4日 下午 11:52
其他

终于搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
6月3日 下午 11:50
其他

终于搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
6月2日 下午 11:55
其他

风控“规则集”的A类调优(Python实操)

本篇更新策略篇的规则集A类调优Python实操篇,内容选自《100天风控专家》第61期。前面介绍了单变量规则、二维交叉规则、多维决策树规则、决策树规则可视化等常用的方法。规则集的性能介绍,以及规则集性能测试Python实操。本篇来介绍如何对规则集进行A类调优。规则集提升通过率(A类调优)的一般分析流程。什么是A类调优?策略调优就是对已有策略进行放松或者收紧的调整,来应对市场风险变化,主要关注的两个指标:通过率、逾期率。按照通过率提升或者降低的角度考虑,策略调优可分两大类:A类调优、D类调优。A类调优的相关注意事项:含义:A是Ascending的缩写,代表提升通过率,即从已有策略拒绝的客户中寻找好客户进行通过。场景:通过监控报表发现,某规则集、模型命中率逐渐变高导致通过降低;业务初期通过率较低风险可控,希望提供通过率扩大业务范围。方式:无客户贷后表现,需通过历史数据推演进行拒绝客户逾期表现的推断。规则集A类调优分析流程对于并行的规则集而言,客户进入规则集的节点以后,我们可以无差别地获取规则集内部每个规则的数据以及命中情况,这是并行规则集的优势,这种优势主要就体现在策略调优上。01
5月31日 下午 7:33
其他

风控“规则集”的性能测试(Python实操)

本篇更新策略篇的规则集性能测算及Python实操,内容选自《100天风控专家》第57期。首先介绍规则集的完整分析流程,包括五个步骤。一、规则集分析流程1.
5月23日 下午 6:42
自由知乎 自由微博
其他

终于搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
5月22日 下午 11:13
其他

这次终于,搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
5月18日 上午 8:29
其他

终于搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
5月15日 下午 10:15
其他

终于搞定了风控模型和策略!

《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
5月12日 下午 9:37
其他

150期“风控策略和模型” 终极版!

大家好,我是东哥。《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
5月8日 下午 11:17
其他

〝风控策略、模型〞,全部搞定!

大家好,我是东哥。《100天风控专家》的大纲终于尘埃落地了。之前一直未做出来,主要是因为有部分未更新的内容不确定,毕竟涉及到内容交付,有些东西还是需要仔细斟酌的,所以拖了好久。其实在这期间有不少朋友咨询过我,也提出过类似目录大纲的问题。近期已经全都搞定了,也给感兴趣的朋友做个参考,接下来我需要做的就是按计划上新了。废话不多说,来看看干货。01课程内容《100天风控专家》从0到1,全面介绍了信贷风控的各个环节,包括业务、产品、策略、模型、数据,”5大板块,10大专栏,近150期“,目前已完成进度是1/3,后续更新可能还会做适当增加,所以最终完全体应该在150期以上。以下是目录大纲。课程详细内容,可扫码
5月2日 上午 10:20
其他

终于搞定了 PSI 稳定性计算(Python代码)

大家好,我是东哥。在风控中,风险意味着不确定性,不确定性越强意味着越不可控,做数据化风控也是同理,追求的就是让确定性越来越强,转换成统计概率论来说就是不断提高我们的胜算的概率。当然,没有任何人可以做到100%的确定,因为没有人是上帝视角,所以在风控决策过程中总会产生错杀或者误放。这是对风控宏观层面的理解,将视角缩小至风控模型上,也是如此。风控模型人员在做模型时可能更关注效果AUC/KS等评估指标,效果胜过一切。但其实对于模型而言,稳定性的重要程度要胜过效果。因为一个模型的开发周期并不短,且上线后不会轻易的更换,也就是说我们做的不是一个高频的事情。如果模型不稳定,即便离线效果比较好但线上稳定性差,那么对于整个风控决策结果而言就是致命的,因为此时你无法保证有大概率的胜算了。本文将介绍风控中稳定性指标PSI的概念和理解,以及A卡模型上线后如何对模型分及入模变量进行稳定性观测。PSI的理解作为一名风控人员,相信对IV指标并不陌生,它可以代表一个变量的信息价值,或者可以理解为与目标变量的相关程度,是一个变量好坏的效果指标。如果你是一个老风控人员,就会发现PSI和IV指标的计算公式是非常相似的,因为二者的本质是相同的,都是计算两个分布之间的距离。PSI衡量稳定性,希望两个分布越接近越好,而IV衡量变量的区分能力,希望两个分布越远离越好。所以,弄清楚这点,PSI和IV的计算公式就相当容易理解了。这就是PSI,全称为(Population
4月25日 下午 5:37
其他

风控模型策略考点&大厂面经手册

金三银四求职季,应届的、跳槽的,最近100天风控群里太多朋友有求职面试的需求了,借此机会整理了关于金融信贷风控模型和策略方面的大厂面经,以及常见考点和解答。这个手册由于还没更新完,有部分内容还在补充完善,目前仅限《100天风控专家》课程内部共享使用。如果感兴趣可以私信我。另外,信贷风控的免费交流群即将满员,最近无论技术讨论、还是行业招聘信息内容质量都拉满了,想要进群交流的,可以私我备注:风控注意:该群仅适合银行/消金/小贷/互联网风控的业内人士、正在学习风控的应届同学、转行转岗的同学,非相关人士不会邀请。--end--100天风控专家历史文章迁徙率报表逻辑和开发(Python代码)Vintage分析表计算过程详解CART决策树暴力生成风控规则基于交叉表制定风控规则全流程(Python)风控规则的决策树可视化(升级版)
4月3日 下午 3:36
其他

Vintage分析表计算过程详解

大家好,我是东哥。信贷风控领域中,经常用到账龄Vintage报表,这是入门初学者的难点之一,因为它涉及到用户还款、逾期等多种行为以及业务上的多种统计口径,因此很多朋友一直无法将逻辑梳理清楚。本次来给大家详细介绍Vintage报表的底层计算逻辑是什么样的。一、4个统计时点以2022-11放款月份为例,各个MOB对应的M2+逾期率为:MOB1的M2+逾期率=MOB1的M2+逾期金额/2022年11月总放款金额=0MOB2的M2+逾期率=MOB2的M2+逾期金额/2022年11月总放款金额=0.95%…MOB12的M2+逾期率=MOB12的M2+逾期金额/2022年11月总放款金额=3.22%通用公式:MOB(N)的M2+逾期率=MOB(N)的M2+逾期金额/xx放款月份的总放款金额要计算每个单元格的逾期率,需要首先了解4个统计时点:应还款日、实际还款日、MOB观察日,当前观察日。应还款日:还款计划生成后,确定了每个月的还款日。有两个方式,第一种是还款日根据放款日而定,比如2022年11月10日放款,那么后续每个月10号还款,第二种是所有客户都是同一还款日,比如所有客户都在每个月的21号还款。实际还款日:客户实际的还款日,由客户还款行为决定,与应还款日比较以后可有三种方式,提前还款、按时还款、逾期不还。MOB观察日:每个MOB月的观察时点,也分为两种,一种是期末时点,一种是月末时点。当前观察日:就是假设你站在了某个时点,然后对历史每个月放款后各MOB逾期数据的回看。与前三个时点不同,当前观察日不是周期性产生的,而是固定不变的,对于所有放款月都一样。总结一下,在进行Vintage计算之前需要确认几个事项:当前观察日是哪天?MOB观察日的口径,是月末时点,还是期末时点?观察逾期的口径,是当前current逾期,还是曾经ever逾期?金额口径还是订单口径?实际业务场景中,比较常用的是“MOB月末时点观测+当前逾期口径+逾期未结清余额”的逾期率口径。以上4个都确定以后,剩下就看应还款日和实际还款日了,而应还款日是根据产品设计而定的,因此只有实际还款日是不确定的。实际还款日是由客户行为决定的,可以发生在任何的时间点,所以根据实际还款日的不同发生位置,就会产生多种情况。二、逾期天数计算第一种是,当应还日超过当前观察日的时候,也就是应还日还在未来,是未发生的事,因此我们无法判断。第二种是,应还日在当前观察日之内了,属于我们可以观察到的历史数据了。此时,如果实际还款日在应还日当天或者之前,说明是正常还款,未发生逾期,因此逾期天数为0。第三种是,实际还款日在应还日和mob观察日之间,说明虽然逾期了,但在mob观察日之前还上了。此时如果是当前逾期的口径,那么在mob月底观察是未发生逾期的,那么逾期天数为0;如果是曾经逾期口径,那么就发生过逾期了,逾期天数=实还日-应还日=5第四种是,实际还款日在mob观察日之后,虽然也还了,但晚于mob观察点,因此当前逾期与曾经逾期口径是一样的,逾期天数都=MOB观察日-应还款日=21第五种是,从应还日一直到当前观察日,客户一直没有还款动作,也就是一直未结清。因此当前逾期与曾经逾期口径也是一样的,逾期天数都=MOB观察日-应还款日=21三、逾期金额计算前面我们根据4个统计时点,计算出每个客户在各个mob下的逾期状态和逾期天数。逾期天数可以转化为逾期期数,比如M1+/M2+/M3+等等,因此我们就可以观察M1+/M2+/M3+的逾期率在vintage账龄下的趋势。通过各mob的逾期状态判断,我们也可以统计出逾期的剩余未还本金,也就是我们前面所要求的金额逾期率口径的分子。四、逾期率计算逻辑五、Python代码实操对于核心部分逾期天数和金额计算的Python代码展示如下。############################逾期标识##########################################
3月15日 下午 6:42
其他

CART决策树暴力生成风控规则

上一篇我们介绍了决策树节点信息更新的方法风控规则的决策树可视化(升级版),以辅助我们制定风控规则,可视化的方法比较直观,适合做报告展示,但分析的时候效果没那么高。一、树结构信息本篇我们介绍一种通过决策树自动挖掘规则的方法。通过Sklearn中的tree_可以获取树结构的所有信息,进而将所有决策路径挖掘出来,也就是全自动化地的生成规则。总体想法就是先暴力挖掘规则,然后再从规则池中按照评估指标进行筛选。以下是官网链接。https://scikit-learn.org/stable/auto_examples/tree/plot_unveil_tree_structure.html#sphx-glr-auto-examples-tree-plot-unveil-tree-structure-py二、代码实操首先,也需要使用DecisionTreeClassifier或者DecisionTreeRegressor构建一个决策树模型对象。X
3月13日 下午 11:15
其他

风控规则的决策树可视化(升级版)

上一篇我们介绍了如何通过交叉表来生成规则:基于交叉表制定风控规则全流程(Python),本篇我们来介绍一种可以生成多规则的方法,决策树。除了做模型以外,也可以用来挖掘规则,原理是一样的。下面通过sklearn的决策树方法来实现风控规则的发现,同时分享一种可以更新决策树节点信息的方法,以辅助制定风控规则。sklearn决策树Sklearn中有两个决策树API方法,分别是:tree.DecisionTreeClassifier:CART分类树tree.DecisionTreeRegressor:CART回归树要注意的是,Sklearn没有对ID3和C4.5算法的实现,就只有CART算法,并且是调优过的。下面是官方文档的说明。X
3月10日 下午 2:20
其他

基于交叉表制定风控规则全流程(Python)

规则是风控策略中最常用的工具之一,生成、筛选、监控、调优,几乎每天都在打交道,本篇来介绍如何基于交叉表来生成风控规则,并且如何基于评估指标进行筛选。一、交叉表介绍1.1.
3月7日 下午 8:15
其他

大更新,pandas终于有case_when方法了!

when语句非常好用,尤其在加工变量的时候,可以按照指定的条件的进行赋值,并且结合其他嵌套用法还可以实现非常强大的功能。同样作为数据分析常用工具之一,pandas中却没有像case
1月29日 下午 3:44
其他

pandas 时序统计的高级用法!

label='right')['C_0'].sum().to_frame(name='right_bnd').head(5)4)聚合统计类似于groupby和窗口的聚合方法,
1月5日 下午 11:34
其他

终于搞定了pandas数据分析

推荐一个原创的pandas数据分析图文,由东哥亲自打造,包涵入门、进阶、实战、刷题四个核心部分,以及一些数分的辅助部分。从图文启动开始一直保持着很高的更新频率,最新的更新版本如下。01如何使用?《pandas快速入门》适合初学者入门,花最短的时间了解pandas,建立初步的认识和感觉。如果已经有了一定基础,可以选择忽略。《pandas进阶宝典》适合初学者进阶,10万字+300章节+80%图解的图文,分为基础篇、进阶篇、实战篇。超详细的分类介绍和高级玩法,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析pandas实战:用户消费行为画像数据分析实战:二手房价分析和预测当然,作为工作中的查询手册也是不要太爽,我自己一直在用,效率非常高。以下是部分内容展示(左右滑动查看更多)>《pandas进阶题库》适合进阶后巩固,掌握各种场景下的技巧和方法。大部分问题由pandas交流群成员提出的,均是真实需求,在实际需求中解决问题,从而快速熟练掌pandas和数据分析思维。以下是部分内容展示。练习题库持续更新中。《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
1月3日 下午 11:59
其他

pandas实战:用户消费行为画像

《再见pandas》系列图文继续更新,新增第5个实战项目。以下是系列图文中两个公开分享的历史文章。pandas实战:出租车GPS数据分析pandas实战:电商平台用户行为分析该项目主要对某平台用户消费行为进行画像分析,通过pandas的灵活使用,对月销量、客户复购率、回购率、客户分层、高质量客户、留存率、消费间隔等进行多维度分析。以下为部分节选内容,完整数据和代码可在文末扫码了解👇首先,加载用户的消费数据。columns=["user_id","order_dt","order_product","order_amount"]df
2023年12月26日
其他

风控实战:用Python实现vintage报表

大家好,我是东哥。本篇继续分享风控的内容,关于如何用python实现vintage报表及可视化图的实战。历史实战文章如下:数据挖掘实战:聚类分群实现精准营销数据挖掘实战:个人信贷违约预测账龄分析(vintage)是风控中非常重要的报表之一,通过它可以将不同月份的资产数据拉齐对比贷后表现,也可以用于指导制定风控模型Y标签的成熟表现期。那么账龄分析是如何做的呢?vintage报表,一般需要客户的还款计划表数据,即客户历史的还款记录,包括放款金额、每期到期日期、每期还款日期、每期应该金额、每期实还金额、期数等等。vintage加工计算逻辑会在理论篇单独讲解,本篇主要介绍python代码实战。Python代码实现首先导入数据,每家机构的数据字段可能不尽相同,但核心逻辑都是一样的,可以基于已有的数据进行加工出我们想要的样子,比如下面这个比较原始的表结构,没有非常完善的字段。以下是核心字段的加工逻辑。我们以每月月底为观测点对各个账龄进行DPD30+金额口径逾期率的计算。#
2023年12月20日
其他

机器学习模型可解释性的综述

导读:模型可解释性方面的研究,在近两年的科研会议上成为关注热点,因为大家不仅仅满足于模型的效果,更对模型效果的原因产生更多的思考,这样的思考有助于模型和特征的优化,更能够帮助更好的理解模型本身和提升模型服务质量。本文对机器学习模型可解释性相关资料汇总
2023年12月16日
其他

pandas数据分析学习路线

大家好,我是东哥。《再见pandas》系列已有300多位朋友加入学习了,这段时间亲眼见证了很多朋友的飞跃进步,从无到有,从一个问问题的小白到开始慢慢回答别人的问题,在讨论和练习中不断成长。虽说pandas已经很普及了,但普及内容的深度却远远不够。下面这套原创图文是东哥亲自打造,包涵入门、进阶、实战、刷题四个核心部分,以及一些数分的辅助部分。从图文启动开始一直保持着很高的更新频率,最新的更新版本如下。01如何使用?《pandas快速入门》适合初学者入门,花最短的时间了解pandas,建立初步的认识和感觉。如果已经有了一定基础,可以选择忽略。《pandas进阶宝典》适合初学者进阶,10万字+300章节+80%图解的图文,分为基础篇、进阶篇、实战篇。超详细的分类介绍和高级玩法,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析当然,作为工作中的查询手册也是不要太爽,我自己一直在用,效率非常高。以下是部分内容展示。>《pandas进阶题库》适合进阶后巩固,掌握各种场景下的技巧和方法。大部分问题由pandas交流群成员提出的,均是真实需求,在实际需求中解决问题,从而快速熟练掌pandas和数据分析思维。以下是部分内容展示。练习题库持续更新中。《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年12月15日
其他

数据挖掘实战:聚类分群实现精准营销

本次分享一个通过聚类实现精准营销的实战项目。风控中分群介绍本实战案例介绍如何通过无监督的聚类算法对银行客户进行分群。所谓物以类聚,人以群分,有相似属性、行为特征等的客户就可以聚合为一类人群。在信贷风控中,聚类分群多应用于没有Y标签的场景,如反欺诈、客户画像等。以反欺诈为例,现在我们想抓出黑产,但有没有Y标签无法使用监督学习训练模型,这时就可以先找出有可能识别出黑产的一些特征数据,比如设备信息、行为操作信息、地址信息等,通过聚类算法就可以将操作频率高、地址切换频率高这种异常行为的人群归为一类,从而打出黑产的标签。当然,此时的标签还有待考证,但至少是一种维度的参考,可以参与到策略的使用中,比如我们可以将黑产标签设计成一个弱规则,与其他规则组合使用来判断客户风险。通过上线的监测观察来检验标签的识别效果。再比如,我们现在有客户的基础属性、业务等画像数据,想对客户的价值高低进行识别,从而能够有针对性的进行产品营销。此时同样可以通过聚类划分出对业务影响不同程度的客群,然后再以此设计策略。数据&需求以下数据为银行客户的信息和业务画像数据,营销策略部的业务需求是拟通过聚类对客户价值进行分层,以此设计营销白名单。df
2023年12月12日
其他

来了!pandas的终极学习秘籍

大家好,我是东哥。《再见pandas》系列已有300多位朋友加入学习了,这段时间亲眼见证了很多朋友的飞跃进步,从无到有,从一个问问题的小白到开始慢慢回答别人的问题,在讨论和练习中不断成长。虽说pandas已经很普及了,但普及内容的深度却远远不够。下面这套原创图文是东哥亲自打造,包涵入门、进阶、实战、刷题四个核心部分,以及一些数分的辅助部分。从图文启动开始一直保持着很高的更新频率,最新的更新版本如下。01如何使用?《pandas快速入门》适合初学者入门,花最短的时间了解pandas,建立初步的认识和感觉。如果已经有了一定基础,可以选择忽略。《pandas进阶宝典》适合初学者进阶,10万字+300章节+80%图解的图文,分为基础篇、进阶篇、实战篇。超详细的分类介绍和高级玩法,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析当然,作为工作中的查询手册也是不要太爽,我自己一直在用,效率非常高。以下是部分内容展示。>《pandas进阶题库》适合进阶后巩固,掌握各种场景下的技巧和方法。大部分问题由pandas交流群成员提出的,均是真实需求,在实际需求中解决问题,从而快速熟练掌pandas和数据分析思维。以下是部分内容展示。练习题库持续更新中。《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年12月9日
其他

数据挖掘实战:个人信贷违约预测

本次分享风控圈子的一个练手实战项目:个人信贷违约预测,此项目对于想要学习信贷风控模型的同学非常有帮助。完整数据和代码见文末。项目背景当今社会,个人信贷业务发展迅速,但同时也会暴露较高的信用风险。信息不对称在金融贷款领域突出,表现在过去时期借款一方对自身的财务状况、还款能力及还款意愿有着较为全面的掌握,而金融机构不能全面获知借款方的风险水平,或在相关信息的掌握上具有明显的滞后性。这种信息劣势,使得金融机构在贷款过程中可能由于风险评估与实际情况的偏离,产生资金损失,直接影响金融机构的利润水平。而现今时间金融机构可以结合多方数据,提前对客户风险水平进行评估,并做出授信决策。解决方法运用分类算法预测违约模型选择单模型:
2023年11月30日
其他

pandas 图形可视化大全

pandas的可视化方法,分为图形可视化和表格可视化。本次介绍完整的图形可视化使用方法,包括基础和高级两部分。以下是内容展示,完整数据、和代码可戳👉《再见!pandas》了解。基础可视化一种是针对series和dataframe的绘制方法,可以一行代码快速绘图。dataframe.plot.func()series.plot.func()func()主要是日常比较基础的图形,如下:折现图(line)条形图(bar)直方图(hist)箱箱型(box)面积图(area)散点图(scatter)饼图(pie)六边形箱型图(hexbin)核密度图(kde)子图import
2023年11月24日
其他

pandas实战:出租车GPS数据分析

大家好,我是东哥。本次分享一个交通行业实战项目,这个项目是对出租车GPS数据进行分析,具体内容包括了数据理解、业务场景、数据处理、可视化等。完整数据、和代码可长按扫码了解pandas进阶宝典👇一、数据背景数据表的变量含义如下。id:车辆编号,唯一标识time:GPS采集时间long:GPS经度lati:GPS纬度status:载客状态,1为载客,0为空客speed:采集的GPS车速首先读取数据,由于原数据没有header,直接就是数据,因此需设置为None,然后手动添加列索引名称。#
2023年11月23日
其他

学习 pandas 的正确打开方式

大家好,我是东哥。《再见pandas》系列已有300多位朋友加入学习了,这段时间亲眼见证了很多朋友的飞跃进步,从无到有,从一个问问题的小白到开始慢慢回答别人的问题,在讨论和练习中不断成长。虽说pandas已经很普及了,但普及内容的深度却远远不够。下面这套原创图文是东哥亲自打造,包涵入门、进阶、实战、刷题四个核心部分,以及一些数分的辅助部分。从图文启动开始一直保持着很高的更新频率,最新的更新版本如下。01如何使用?《pandas快速入门》适合初学者入门,花最短的时间了解pandas,建立初步的认识和感觉。如果已经有了一定基础,可以选择忽略。《pandas进阶宝典》适合初学者进阶,10万字+300章节+80%图解的图文,分为基础篇、进阶篇、实战篇。超详细的分类介绍和高级玩法,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析当然,作为工作中的查询手册也是不要太爽,我自己一直在用,效率非常高。以下是部分内容展示。>《pandas进阶题库》适合进阶后巩固,掌握各种场景下的技巧和方法。大部分问题由pandas交流群成员提出的,均是真实需求,在实际需求中解决问题,从而快速熟练掌pandas和数据分析思维。以下是部分内容展示。练习题库持续更新中。《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年11月20日
其他

再见,pandas!

大家好,我是东哥。《再见pandas》系列已有300多位朋友加入学习了,这段时间亲眼见证了很多朋友的飞跃进步,从无到有,从一个问问题的小白到开始慢慢回答别人的问题,在讨论和练习中不断成长。虽说pandas已经很普及了,但普及内容的深度却远远不够。下面这套原创图文是东哥亲自打造,包涵入门、进阶、实战、刷题四个核心部分,以及一些数分的辅助部分。从图文启动开始一直保持着很高的更新频率,最新的更新版本如下。01如何使用?《pandas快速入门》适合初学者入门,花最短的时间了解pandas,建立初步的认识和感觉。如果已经有了一定基础,可以选择忽略。《pandas进阶宝典》适合初学者进阶,10万字+300章节+80%图解的图文,分为基础篇、进阶篇、实战篇。超详细的分类介绍和高级玩法,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析当然,作为工作中的查询手册也是不要太爽,我自己一直在用,效率非常高。以下是部分内容展示。>《pandas进阶题库》适合进阶后巩固,掌握各种场景下的技巧和方法。大部分问题由pandas交流群成员提出的,均是真实需求,在实际需求中解决问题,从而快速熟练掌pandas和数据分析思维。以下是部分内容展示。练习题库持续更新中。《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年11月18日
其他

pandas 如何实现 excel 中的汇总行?

最近群里小伙伴提出了几个问题,如何用pandas实现execl中的汇总行。关于这个问题,群里展开了激烈的讨论,最终经过梳理总结出了以下两个解决方法。一种是当做透视时直接使用参数margins,另一种是当无透视时手动造出汇总行。以下是两种方法的案例,已经收集到了padnas进阶百题库👇中。完整手册可以戳《pandas进阶题库》了解获取。pivot_table问题(群成员"浮生如梦"):我想统计一月到十二月的所有数据应该怎么写呢?解决方法用法:sum()、pivot_table如果要对数据按行方向求和,直接使用sum()函数即可,设置参数axis=1(默认是axis=0列方向对列数据求和),然后将横向求和结果赋给一个新的字段。此例中为求和,其他统计方式如mean、max、min等均同理。#
2023年10月23日
其他

yyds!pandas 行列转换的 3 个骚操作

大家好,我是东哥。分享三个行列转换的相关问题,用pandas来解决,大家可以来检验一下自己pandas是否学得过关所有问题均由交流群群的小伙伴提出,真实的需求,经过讨论给出了解决方法,并且收录在《pandas进阶题库》图文中👇一、行转列:分组筛选拼接问题(群成员"哎哟喂是豆子")想要实现按名称分组,并将分组内的列向数据转为横向数据,字段按照分组内行排序顺序依次给定(如下图状态->状态1,状态2,状态3,状态4)。解决方法用法:groupby,concat这里使用分组内聚合函数nth(n),可以提取组内的第n行数据。因此可以按行顺序依次提取出来,然后再横向拼接起来即为最后想要的结果。num
2023年10月12日
其他

pandas 大合集来了!

最近,有粉丝留言说之前分享的pandas文章找不到了。想到更新有一阵子了,为了大家方便查看,把近期写的pandas文章做个汇总。另外还有一个比较好的方法就是订阅👉pandas进阶宝典
2023年9月28日
其他

pandas多级索引的骚操作!

大家好,我是东哥。本篇和大家介绍pandas中的多级索引操作。500页原创图文、数据代码可戳👉《pandas进阶宝典V1.1.8》进行了解。我们知道dataframe是一个二维的数据表结构,通常情况下行和列索引都只有一个。但当需要多维度分析时,我们就需要添加多层级索引了。在关系型数据库中也被叫做复合主键。比如,下面这个数据是高考录取分数线,行索引是地区、学校,列索引是年份、专业,分别对应1级和2级索引,因此共有四个维度。1、多层级索引创建多级索引的创建分两种情况。一种是只有纯数据,索引需要新建立;另一种是索引可从数据中获取。因为两种情况建立多级索引的方法不同,下面分情况来介绍。01
2023年9月27日
其他

再见,pandas!

大家好,我是东哥。再次推荐一下自己做的pandas原创系列教程:pandas进阶宝典上线至今已有近3个月时间了,最开始只有进阶宝典这么一个图文,但随着越来越多小伙伴的加入,有了各种各样的需求,因此这段时间图文内容也进行了大量的更新。主打还是一个pandas进阶,在此基础上又添加了4个新的图文教程,具体包括以下:《pandas快速入门》⭐⭐《pandas进阶宝典》⭐⭐⭐⭐⭐《pandas进阶题库》⭐⭐⭐《Numpy速查手册》⭐⭐⭐《正则表达式手册》⭐⭐如何使用?1、《pandas快速入门》主要是给刚入门的小白看的,目的是花最短的时间了解pandas是什么样的,建立初步的认识和感觉。如果已经有了一定基础,可以直接忽略。2、《pandas进阶宝典》这是一个近500页的原创小册子,分为基础篇、进阶篇、实战篇。超详细用法分类和进阶玩法,80%图解内容,多个行业的实战项目(以下是其中两个)pandas实战:出租车GPS数据分析pandas实战:电商平台用户分析非常适合初学者进一步了解和掌握高级用法,同时也可作为工作中的查询手册,我自己一直在用,效率非常高。以下是部分内容展示。>详解内容介绍可参考:pandas进阶宝典3、《pandas进阶题库》该图文大部分的问题主要都是由pandas交流群成员提出的,所有问题均是真实需求,东哥花了些时间进行了分类和解决方法的整理。目的是让小伙伴在有了一定基础后可以刷题,在实际需求中解决问题,从而快速熟练掌握各种技巧和方法。以下是部分内容展示。后续随着交流群不断出现新问题,会持续同步更新到题库中进行分类,最终会形成百题宝典。4、《Numpy速查手册》统计计算有时使用基于数组的Numpy更方便,并且在pandas效率较低时,可以通过Numpy矢量化进行速度的提升优化。该图文对常用的Numpy函数进行了分类和用法整理,方便随时查看。pandas
2023年9月21日
其他

pandas实战:电商平台用户行为分析

本次分享一个电商平台用户行为分析的实战项目,包括流量指标分析、转化漏斗分析、消费时长分析等10多个场景需求。以下是部分内容展示,完整数据、和代码可戳👉《pandas进阶宝典V1.1.6》进行了解。数据分析1.行为概况首先,我们要对用户的行为类型有一定的理解,了解每个行为所代表的含义。浏览:作为用户与商品接触的第一个行为,它的数量级与其他行为类型相比而言是非常庞大的,因为:用户购买之前需要货比三家,可能会浏览很多个商品最后只下单一个,此时就是多个浏览对应一个下单。但大部分用户可能只是浏览了很多商品,但最终没下单的,此时就是多个浏览对应零个下单。收藏:代表用户对商品有了一定程度的意向,但不一定有购买计划。加购物车:代表用户对商品的购买意向进一步加强,但由于某种原因还在犹豫没最终决定,这个环节的成单率极高。下单:代表交易达成,此时新用户已成为老用户,老用户继续产生价值。评论:代表用户对商品反馈的活跃程度。需求1:对所有行为类型统计数量和占比#
2023年9月10日
其他

pandas 时序统计的高级用法!

本次介绍pandas时间统计分析的一个高级用法--重采样。以下是内容展示,完整数据、代码和500页图文可戳👉《pandas进阶宝典V1.1.6》进行了解。重采样指的是时间重采样,就是将时间序列从一个频率转换到另一个频率上,对应数据也跟着频率进行变化。比如时间序列数据是以天为周期的,通过重采样我们可以将其转换为按分钟、小时、周、月、季度等等的其他周期上。根据转换的频率精度可分为向上采样和向下采样。向上采样:转换到更细颗粒度的频率,比如将天转为小时、分钟、秒等向下采样:转换到更粗颗粒度的频率,比如将天转为周、月、季度、年等resample用法pandas中时间重采样的方法是resample(),可以对series和dataframe对象操作。由于重采样默认对索引执行变换,因此索引必须是时间类型,或者通过on指定要重采样的时间类型的column列。用法:pandas.DataFrame.resample()pandas.Series.resample()------返回:Resampler对象参数:rule:定义重采样的规则,DateOffset,Timedelta或str类型,当为str类型时,其参数及含义如下表所示axis:指定轴方向,str类型,默认为00:代表索引1:代表列closed:指定时间频率分组的左右闭合状态,默认M,A,Q,BM,BA,BQ,W右闭合,其余均是左闭合left:指定左闭合right:指定右闭合label:指定左或右边界作为分组标签,默认M,A,Q,BM,BA,BQ,W以右边界为分组标签,其余均是以左边界为分组标签left:以左边界为分组标签right:以右边界为分组标签kind:将结果索引转化为指定的时间类型timestamp:将结果索引转换为DateTimeIndexperiod:将结果索引转换为PeriodIndexon:对于dataframe,指定被重采样的列,且列必须是时间类型level:对于多级索引,指定要被重采样的索引层级,int或str类型。int:索引层级str:索引层级名称origin:调整时间分组的起点。Timestamp或str类型,当为str时:epoch:1970-01-01start:时间序列的第一个值start_day:时间序列第一天的午夜end:时间序列的最后一个值end_day:最后一天的午夜offset:对origin添加的偏移量,Timedelta或str类型group_keys:指定是否在结果索引包含分组keys,当采样对象使用了.apply()方法,默认False不包含举例:1)指定列名resample默认只对索引对象操作,换句话说,默认情况下索引必须是时间类型的数据,否则执行会报错。对于dataframe而言,如不想对索引重采样,可以通过on参数选择一个column列代替索引进行重采样操作。#
2023年8月30日
其他

pandas一个优雅的高级应用函数!

pandas中4个高级应用函数applymap:元素级apply:行列级transform:行列级还有另外一个管道函数pipe(),是表级的应用函数。以下是内容展示,完整数据、和代码可戳👉《pandas进阶宝典V1.1.6》进行了解。pipe函数介绍函数:pipe函数可应用在series和dataframe两个数据结构上。series.pipe(func,
2023年8月23日
其他

pandas 图形可视化大全

pandas的可视化方法,分为图形可视化和表格可视化。本次介绍完整的图形可视化使用方法,包括基础和高级两部分。以下是内容展示,完整数据、和代码可戳👉《pandas进阶宝典V1.1.6》进行了解。基础可视化一种是针对series和dataframe的绘制方法,可以一行代码快速绘图。dataframe.plot.func()series.plot.func()func()主要是日常比较基础的图形,如下:折现图(line)条形图(bar)直方图(hist)箱箱型(box)面积图(area)散点图(scatter)饼图(pie)六边形箱型图(hexbin)核密度图(kde)子图import
2023年8月16日
其他

pandas实战:出租车GPS数据分析

上次分享了电商行业的项目实战:pandas实战:电商平台用户分析。本次分享一个交通行业实战项目,这个项目是对出租车GPS数据进行分析,具体内容包括了数据理解、业务场景、数据处理、可视化等。以下是部分内容展示,完整数据、和代码可戳👉《pandas进阶宝典V1.1.6》进行了解。一、数据处理数据表的变量含义如下。id:车辆编号,唯一标识time:GPS采集时间long:GPS经度lati:GPS纬度status:载客状态,1为载客,0为空客speed:采集的GPS车速首先读取数据,由于原数据没有header,直接就是数据,因此需设置为None,然后手动添加列索引名称。#
2023年8月11日
其他

再见 for 循环!pandas 速度提升315倍!

[i]['date_time']执行所谓的链式索引,这通常会导致意外的结果。这种方法的最大问题是计算的时间成本。对于8760行数据,此循环花费了3秒钟。接下来,一起看下优化的提速方案。一、使用
2023年8月9日