商务智能与数据挖掘实验教程
图书信息
作者:朱慧云,曹玲编
出版社:科学出版社
定价:59.00
ISBN:9787030552815
出版时间:2017-11-01
分类:图书,行业职业,计算机,数据库
商品介绍
目录
前言
第一部分IBMSPSSModeler软件使用篇
第1章IBMSPSSModeler软件使用基础3
1.1实验目的3
1.2背景知识3
1.3实验内容5
1.4实验步骤5
1.5复习思考题23
第2章购物篮分析24
2.1实验目的24
2.2背景知识24
2.3实验内容26
2.4实验步骤28
2.5复习思考题45
第3章客户细分47
3.1实验目的47
3.2背景知识47
3.3实验内容49
3.4实验步骤50
3.5复习思考题59
第4章客户分类60
4.1实验目的60
4.2背景知识60
4.3实验内容60
4.4实验步骤61
4.5复习思考题69
第二部分开源数据挖掘软件使用篇
第5章Weka软件使用基础73
5.1实验目的73
5.2背景知识73
5.3实验内容75
5.4实验步骤75
5.5复习思考题89
第6章Weka软件使用高阶90
6.1实验目的90
6.2背景知识90
6.3实验内容93
6.4实验步骤94
6.5复习思考题103
第7章RapidMiner软件使用基础104
7.1实验目的104
7.2背景知识104
7.3实验内容105
7.4实验步骤105
7.5复习思考题110
第8章RapidMiner软件使用高阶112
8.1实验目的112
8.2背景知识112
8.3实验内容112
8.4实验步骤113
8.5复习思考题127
第三部分社会网络分析与可视化软件使用篇
第9章科研合作网络特征的社会网络分析131
9.1实验目的131
9.2背景知识131
9.3实验内容133
9.4实验步骤133
9.5复习思考题150
第10章基于CiteSpace的文献可视化分析151
10.1实验目的151
10.2背景知识151
10.3实验内容152
10.4实验步骤——数据下载152
10.5实验步骤——数据预处理156
10.6实验步骤——数据分析160
10.7复习思考题178
参考文献179
内容简介
本书综合经济管理专业知识和商务智能、数据挖掘模型开发于一体,结合商业背景设计若干实践项目,全面阐述使用IBMSPSSModeler、Weka、RapidMiner等软件进行数据分析与挖掘的原理、方法和步骤,介绍社会网络分析软件UCINET与文献可视化分析软件CiteSpace的使用,紧密结合理论教学,使学生在有限的实验课时中,加深对所学知识的理解和掌握。目前国内商务智能与数据挖掘实验指导教程的相关书籍不多,结合商业背景的更是稀少,本书强调数据挖掘在商业决策领域中的应用,弥补大多数同类书籍商业应用不足的缺点。本书可作为经管类专业本科生、研宄生的实验教材,也可在MBA、EMBA教学和企业培训中使用,还可供从事商务智能与数据挖掘相关工作的专业人员参考。
精彩内容
靠前部分 IBM SPSS Modeler软件使用篇
靠前章 IBM SPSS Modeler软件使用基础
1.1 实验目的
(1) 了解IBM SPSS Modeler数据挖掘软件的基本操作和环境。
(2) 初步掌握使用IBM SPSS Modeler的不同节点导入不同格式存储的数据。
(3) 熟悉IBM SPSS Modeler提供的图形节点,通过对数据的可视化展示了解数据类型和数据分布。
1.2 背景知识
1) IBM SPSS Modeler
SPSS Modeler是一款商业数据挖掘软件,能够为个人、团队、系统和企业做决策提供预测性智能。它可提供各种不错算法和技术 (包括文本分析、实体分析、决策管理与优化),快速建立预测性模型,并将其应用于商业活动,从而改进决策过程[1]。
借助SPSS Modeler,您可以使用各种分析技术访问数据源,如数据仓库、数据库、Hadoop分布或平面文件,以便从您的数据中发现隐含的模式。这些统计技术使用历史数据来预测当前状况或未来事件。这些统计技术还包括数据访问、数据准备、数据建模和交互可视化功能。
SPSS Modeler在提供大量强大且稳健的数据挖掘模型供分析人员使用的同时保持很好友好的易用性,提供图形化的操作环境,使用鼠标即可完成数据挖掘全过程,降低了入门要求,减少了学习时间。
2) 数据挖掘方法论——CRISP-DM
SPSS Modeler 根据CRISP-DM(cross-industry standard process for data mining) 即“跨行业数据挖掘标准流程”设计[2]。CRISP-DM 模型将一个数据挖掘流程分为六个不同的,但顺序并非接近不变的阶段。这六个阶段分别是:
(1) 商业理解 (business understanding)。从商业的角度了解项目的要求和很终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。
(2) 数据理解 (data understanding)。数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作,具体如:检测数据的量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形成对潜在信息的假设。收集原始数据,对数据进行装载,描绘数据,并且探索数据特征,进行简单的特征统计,检验数据的质量,包括数据的完整性和正确性,缺失值的填补等。
(3) 数据准备(data preparation)。数据准备阶段涵盖了从原始粗糙数据中构建很终数据集 (将作为建模工具的分析对象) 的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这一阶段的任务主要包括:制表,记录,数据变量的选择和转换,以及为适应建模工具而进行的数据清理等。
(4) 建模 (modeling)。在这一阶段,各种各样的建模方法将被加以选择和使用,通过建造、评估模型将其参数校准为很理想的值。比较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。如果有多重技术要使用,那么在这一任务中,对于每一个要使用的技术要分别对待。一些建模方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务有时是很好必要的。
(5) 评估 (evaluation)。从数据分析的角度考虑,在这一阶段中,已经建立了一个或多个高质量的模型。但在进行很终的模型部署之前,需要更加有效地评估模型,回顾在构建模型过程中所执行的每一个步骤,是很好重要的,这样可以确保这些模型达到企业的目标。一个关键的评价指标就是,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。
(6) 部署 (deployment)。部署,即将其发现的结果以及过程组织成为可读文本形式。模型的创建并不是项目的很终目的。尽管建模是为了增加更多有关于数据的信息,但这些信息仍然需要以一种客户能够使用的方式被组织和呈现。这经常涉及一个组织在处理某些决策过程中,如在决定有关网页的实时人员或者营销数据库的重复得分时,拥有一个“活”的模型。
根据需求的不同,部署阶段可以是仅仅像写一份报告那样简单,也可以像在企业中进行可重复的数据挖掘程序那样复杂。在许多案例中,往往是客户而不是数据分析师来执行部署阶段。然而,尽管数据分析师不需要处理部署阶段的工作,对于客户而言,预先了解需要执行的活动,从而正确地使用已构建的模型是很好重要的。
3) 数据流
使用SPSS Modeler处理数据有三个步骤。首先,将数据读入SPSS Modeler,然后通过一系列操作运行数据,很后,将数据发送到目标位置。这一操作序列称为数据流,因为数据以一条条记录的形式,从数据源开始,依次经过各种操作,很终到达目标 (模型或某种数据输出)(图1-1)[3]。
图1-1 一个简单数据流
1.3 实验内容
(1) 初步认识SPSS Modeler软件,了解软件的主窗口,学习对节点的基本操作、构建数据流等。
(2) 使用SPSS Modeler的数据库源节点、变量文件节点等导入数据。
(3) 使用SPSS Modeler提供的图形节点,对数据进行可视化展示。
1.4 实验步骤
1.4.1 初步认识IBM SPSS Modeler软件
1) IBM SPSS Modeler主窗口
依次单击开始→所有程序→IBM SPSS Modeler 18.0→IBM SPSS Modeler18.0,启动程序,显示IBM SPSS Modeler主窗口(图1-2)。
SPSS Modeler 主窗口由菜单栏、工具栏、数据流工作区、节点选用板、管理器和项目窗口组成。
菜单栏。菜单栏位于SPSS Modeler主窗口顶部,包含软件的绝大多数命令。
工具栏。SPSS Modeler主窗口顶部有一个图标工具栏,其中包含许多有用功能,如创建新流、打开现有流、运行当前流等。
数据流工作区。数据流工作区是SPSS Modeler窗口的优选区域,也是构建和操作数据流的位置。通过在界面的主工作区中绘制与业务相关的数据操作图表来创建流。每个操作都用一个图标或节点表示,这些节点通过流连接在一起,流表示数据在各个操作之间的流动。在SPSS Modeler中,可以在同品质工作区或通过打开新的流工作区来一次处理多个流。会话期间,流存储在SPSS Modeler窗口右上角的“流”管理器中。
图1-2 IBM SPSS Modeler主窗口
节点选用板。SPSS Modeler中,每个操作都用一个节点表示。SPSS Modeler中的大部分数据和建模工具位于节点选用板中,节点选用板位于流工作区下方窗口的底部。节点选用板包括多个选项卡,每个选项卡均包含一组不同的流操作阶段中使用的相关节点。
流、输出和模型管理器。管理流、输出和模型,包括三个选项卡。可以使用“流”选项卡打开、重命名、保存和删除在会话中创建的流。“输出”选项卡中包含由SPSS Modeler中的流操作生成的各类文件,如图形和表格,可以显示、保存、重命名和关闭此选项上列出的表格、图形和报告。“模型”选项卡是管理器选项卡中功能不错大的选项卡,该选项卡中包含所有模型块,这些模型块是针对当前会话在SPSS Modeler中生成的模型。这些模型可以直接从“模型”选项卡上浏览或将其添加到工作区的流中。
项目窗口。窗口右侧底部是项目窗口,用于创建和管理数据挖掘项目。“CRISP-DM”选项卡提供了一种组织项目的方式。“类”选项卡提供了一种在SPSS Modeler中按类别 (即按照所创建对象的类别) 组织工作的方式。
2) 节点
源节点。使用源节点能够导入以多种格式存储的数据,这些格式包括平面文件、IBM SPSS Statistics (.sav)、SAS、Microsoft Excel 和ODBC兼容关系数据库,也可以使用用户输入节点生成综合数据。
记录选项节点。此类节点对数据记录执行操作,如选择记录、合并记录等。
字段选项节点。此类节点对数据字段执行操作,如过滤字段、导出新字段等。
- 法律法规分类适用全书(刑法卷)(李佩佑主编;刘荣康本卷主编,河海大学)
- 一带一路与中国对外开放新格局(毛新雅,焦永利 编著,人民)
- 中国戏曲海外传播工程丛书·京剧:白蛇传(杨孝明 著,杨孝明 译,外语教学与研究)
- 诊断学(王少清,许颖,科学)
- 烟囱下的孩子(常新港 著,二十世纪)
- 日本中老年时装(白锡尧编译,浙江人民)
- 文化建设与国家软实力(郑新立 著,外语教学与研究)
- 居家自诊自疗摆脱疾病困扰(刘明军,刘立杰 编,化学工业)
