当前位置:网站首页>推荐书籍 > 正文 >>

CDA三级认证教材:敏捷数据挖掘

图书信息

作者:CDA数据科学研究院编著编

出版社:电子工业出版社

定价:109.00

ISBN:9787121516030

出版时间:2026-01-01

分类:图书,行业职业,计算机,数据库

商品介绍

目录

第1篇原理篇

第1章进阶数据分析思维

1.1数字化时代的三种重要思维1

1.1.1设计思维.2

1.1.2敏捷思维.4

1.1.3数据思维.7

1.2数据思维在现代企业管理中的作用8

1.2.1探查阶段的数据分析.9

1.2.2定义阶段的数据分析.10

1.2.3设计阶段的数据分析.13

1.2.4交付阶段的数据分析.15

第2章量化策略分析框架.20

2.1探索阶段23

2.2诊断阶段24

2.3指导阶段27

第3章量化策略分析流程.29

3.1发现问题31

3.2近因分析33

3.3根因分析35

3.4做出预测36

3.5制定方案37

3.6验证方案38

3.7工具支持39

第2篇技术篇

第4章数据处理.42

4.1使用pandas读取结构化数据.43

4.1.1读取数据.44

4.1.2写出数据.47

4.2数据整合47

4.2.1行、列操作.47

4.2.2条件查询.51

4.2.3横向连接.54

4.2.4纵向合并.57

4.2.5排序.60

4.2.6分组汇总.61

4.2.7拆分列.65

4.2.8赋值与条件赋值.66

4.3数据清洗69

4.3.1重复值处理.69

4.3.2缺失值处理.70

第5章数据可视化74

5.1Python可视化74

5.1.1Matplotlib绘图库.74

5.1.2Seaborn绘图库.83

5.2描述性统计分析与绘图89

5.2.1描述性统计进行数据探索.89

5.2.2制作报表与统计图形.99

第6章市场调研与数据预处理.107

6.1数据采集方法107

6.1.1市场研究中的数据.107

6.1.2概率抽样方法.108

6.1.3非概率抽样方法.114

6.1.4概率抽样和非概率抽样的比较.116

6.2市场调研和数据录入116

6.2.1市场调研流程.116

6.2.2市场调研目标设定.117

6.2.3市场调研前的准备工作.117

6.2.4实施调研.124

6.3数据预处理基础125

6.3.1数据预处理基本步骤.125

6.3.2错误数据识别与处理.126

6.3.3连续变量离群值识别与处理.130

6.3.4分类变量概化处理.132

6.3.5缺失值处理.133

6.3.6连续变量分布形态转换.136

6.3.7连续变量中心标准化或归一化.137

6.3.8变量降维.138

6.3.9WoE转换139

第7章数据降维方法141

7.1矩阵分析法141

7.2连续变量降维146

7.2.1方法概述.147

7.2.2变量筛选.147

7.2.3维度规约.147

7.3主成分分析法148

7.3.1主成分分析简介.148

7.3.2主成分分析原理.149

7.3.3主成分分析的运用.152

7.3.4实战案例:在Python中实现主成分分析.153

7.3.5基于主成分的冗余变量筛选.156

7.4因子分析法157

7.4.1因子分析模型.158

7.4.2因子分析算法.159

7.4.3实战案例:在Python中实现因子分析.162

第8章使用统计学方法进行检验和预测.167

8.1假设检验167

8.1.1假设检验的基本原理.168

8.1.2假设检验中的两类错误.169

8.1.3假设检验与区间估计的联系.170

8.1.4假设检验的基本步骤.171

8.1.5配对样本t检验172

8.2方差分析172

8.2.1单因素方差分析.173

8.2.2多因素方差分析.178

8.3列联表分析与卡方检验181

8.3.1列联表.1818.3.2卡方检验.183

8.4线性回归185

8.4.1简单线性回归.185

8.4.2多元线性回归.187

8.4.3多元线性回归的变量筛选.196

8.4.4线性回归模型的经典假设.199

8.4.5建立线性回归模型的基本步骤.208

8.5逻辑回归209

8.5.1逻辑回归的相关关系分析211

8.5.2逻辑回归模型及实现213

8.5.3逻辑回归的极大似然估计223

8.5.4模型评估.225

8.5.5因果推断模型.233

第9章用户分群方法.239

9.1用户细分与聚类239

9.1.1用户细分的重要意义.23

99.1.2用户细分的不同商业主题.240

9.2聚类分析的基本概念247

9.3聚类模型的评估248

9.3.1轮廓系数.248

9.3.2平方根标准误差249

9.3.3R22499.3.4ARI250

9.4层次聚类250

9.4.1层次聚类算法描述.251

9.4.2层次聚类分群数量的确定.254

9.4.3层次聚类应用简单示例.255

9.4.4层次聚类的特点.260

9.5K-means聚类算法260

9.5.1K-means聚类算法描述260

9.5.2K-means聚类算法的应用:用户细分261

9.6聚类事后分析:决策树应用269

9.6.1决策树的基本概念.269

9.6.2利用决策树解读用户分群后的特征.271

第3篇管理篇

第10章企业数据管理方法论.274

10.1基本概念和关键术语解析274

10.1.1背景与目标.274

10.1.2数据管理主要模块及其关系.276

10.1.3数据生存周期管理.279

10.2输入和资源需求282

10.2.1业务战略.282

10.2.2组织文化.283

10.2.3架构设计和IT系统现状说明.283

10.3数据治理流程283

10.3.1“盘”:盘清现状.284

10.3.2“规”:制定规范.289

10.3.3“治”:问题整治.291

10.3.4“用”:数据应用.292

10.4输出和绩效评估292

10.4.1数据管理的输出.292

10.4.2数据管理的绩效评估.293

10.5数据管理的成熟度模型294

10.5.1能力域和能力项.294

10.5.2成熟度评估等级.298

10.6数据资产价值评估与数据资源入表301

10.6.1数据资产价值评估方法.301

10.6.2数据资源入表.305

10.7本章小结307

第11.章企业数据安全管理方法论.308

11.1数据安全导论308

11.1.1数据安全需求.308

11.1.2数据安全定义.312

11.1.3数据安全管理目标和原则.312

11.2输入和资源需求314

11.2.1业务需求.314

11.2.2监管要求.314

11.3数据生存周期安全管理流程314

11.3.1数据安全需求分析.314

11.3.2制定数据安全制度和细则.315

11.3.3数据的分类分级.316

11.3.4数据安全实施控制.319

11.4输出和绩效评估321

11.4.1数据安全的输出.321

11.4.2数据安全的绩效评估322

11.5数据安全能力成熟度模型323

11.6本章小结327

内容简介

本书作为CDA三级认证教材,打破了传统的学院派知识整合模式,从业务应用场景出发来组织内容,旨在更加贴近业务需求,而非单纯罗列算法。经过多年的打磨,本书精选了在行业应用中价值优选的九类场景,并提供不同场景下构建数据应用的很好实践。本书涉及的算法不仅涵盖传统的统计学习,还结合企业实际需求,解构了机器学习、深度学习的前沿方法,并提供了丰富的示例代码,以便读者借鉴。

本书分为3篇:理论篇、技术篇和管理篇。理论篇共1章,讲解数据挖掘的核心思维、算法模型和数据挖掘之间的关系,以及数据挖掘的落地场景框架。技术篇共6章,讲解决策类、识别类、优化分析类模型的具体算法,以及参数调优、特征工程、类别不平衡问题等内容。管理篇共2章,讲解MLOps和模型生命周期管理。

作者简介

CDA数据科学研究院简介2013年,大数据行业方兴未艾,CDA数据科学研究院孕育而生,是全球率先成立的专注于数据科学领域的专业研究机构。CDA数据科学研究院汇集国内外数据行业专家,团队具有专业的学术素养、精湛的研究水平、扎实的企业实战经验、丰富的行业资源,通过对各类企业、社会组织等进行全面、系统、深入的调查和访问,获得紧跟技术发展的经验与数据,并结合数据行业的未来发展方向进行系统的研究,不断研发创新的知识体系和技术应用。近十年来,CDA数据科学研究院秉持“专业性、前沿性、科学性”的定位,深耕数据分析、大数据、人工智能等核心领域,持续推进数据科学的行业发展和数字化人才标准体系的建立。未来,CDA数据科学研究院也将顺应数字化时代浪潮,持续开拓创新,继续加大数据科学领域的内容建设,推进人才数字化赋能,助力企业数字化转型。

推荐书籍