《企业经营数据分析 赵兴峰》以企业实际应用为导向,系统梳理了数据分析的核心思路与方法,覆盖生产制造、零售服务、电商等多个行业场景。书中不仅包含大数据基础、职能部门分析等理论框架,还提供对比、分类、预测等实操工具。
该书只是入门教程,适合初学者。本文为该书的读书笔记、工具介绍使用了DeepSeek-R1满血版总结。
1 企业中的大数据
简单地从字面意义上来理解“数据”的定义就是:数字化的证据和依据,是事物存在和发展状态或者过程的数字化记录,是事物发生和发展留存下来的证据。如果无法解读所获得数据的含义,那么只能称之为“数”,而不是“数据”。
从严格的定义角度讲,“数据是我们对客观事物及其发生、发展的数字化的记录” 。。通过这个记录,我们可以还原事物在该数据记录时的状态和发生的活动,因此我们能够通过数据去追溯当时的情景。
- 数据的依据性质比证据性质更重要
证据强调的是过去,依据强调的是未来。证据只有在产生纠纷和产生疑问的时候才有价值。而依据则不同,如果企业能够充分利用数据、分析数据、挖掘数据背后的规律,找寻事物之间发生和发展的逻辑关系并能够指导企业未来的经营和管理活动,那么这些数据就成了依据。数据的“依据”价值远远大于“证据”的价值。
四大类技术(四种技术包括:数据采集技术、数据存储技术、数据传输技术以及数据处理和数据挖掘技术)推动数据技术(DT)时代发展。
“信息即权力”,掌握信息越多的人,就会拥有更多的话语权。而信息来自对数据的加工,如果不能从数据中提取信息用于管理决策,那么采集的数据只会成为企业的成本;如果能够充分发挥数据的力量,在数据中挖掘价值,那么数据就会成为企业的资产。 - 数据分类
分类是认知事物的基本方法,也是数据分析的基本方法。分类需要有标准,分类标准其实是我们认识事物的角度,看待问题的视角。对对象本身进行描述的数据被称作静态数据,而对对象的活动进行描述的数据被称作动态数据。静态数据又叫截面数据,是指事物在某个时间节点上的状态。动态数据又叫时间序列数据,是对事物在不同时间节点的状态的记录,反映事物的动态变化性,或者在不同时间节点上的差异性。企业经营需要产生价值,价值往往是用静态数据之间的差异来衡量的,而动态数据记录着企业的资源转换行为。所有的结果都是由行为产生的,我们把数据分成静态数据和动态数据的主要目的就是方便研究行为和结果之间的关系,这是数据分析和挖掘最重要的目的。加工数据是在原始数据解读基础上的提炼,强调追溯机制。 - 数据类型
从数据所表述内容的角度对数值型数据进行分类,可以分成定类数据、定序数据、定距数据和定比数据。定类数据也称定性数据,用于标识数据所描述的主体对象的类别或者属性、名称,例如人的名字、事物的名称。定序数据也称序列数据,用于对事物所具有的属性顺序进行描述。定距数据也称间距数据,它比定序数据的描述功能更好一些。定距数据是指没有绝对零点的数据,例如温度,其零点是人为指定的。定比数据也称比率数据,用于描述事物的大小、多少、长短等,可以进行加减乘除运算。 - 数据结构和数据结构化
数据结构包括三类,即数据的逻辑结构、数据的存储结构和数据的运算结构。数据结构是数据的组织形式,在组织数据之前,需要对数据进行分类。原则上,一个好的数据结构,要么是描述静态信息的,要么是记录动态信息的,然后通过数据表之间的关联形成一个完整的相互关联的数据库。
结构化数据主要指在数据存储和数据处理过程中结构设计比较合理的数据。结构化数据库要求数据的结构都是由行和列组成的,每一列都表述了数据所描述对象的要素、属性和行动,而每一行都代表一个数据库所描述的对象。如果行和列的数量不固定,即不能由固定的行和列组成二维结构数据表来表示和存储的数据,则被统称为非结构化数据。如果数据是非结构化的,或者用结构化方法难以处理,就需要通过多表关联的方式进行结构化处理。 - 数据质量及其八个指标
数据的质量直接影响着数据的价值,并且还影响着数据分析的结果以及我们依此做出的决策的质量。数据的质量可以通过八个指标进行衡量,分别是:准确性、及时性、即时性、真实性、精确性、完整性、全面性和关联性。
数据的准确性(Accuracy)是指数据的采集值或者观测值与真实值之间的接近程度,也叫误差值,误差值越大,数据的准确度越低。数据的准确性由数据的采集方法决定的。数据的精确性(Precision)是指对同一对象在重复测量时所得到的不同观测数据之间的接近程度。精确性,也叫精准性,它与数据采集的精度有关系。精度越高,要求数据采集的粒度越细,误差的容忍程度也越低。可以说采用的测量方法和手段直接影响着数据的精确性。数据的真实性,也叫数据的正确性(Rightness)。数据的正确性取决于数据采集过程的可控程度。数据的及时性(In-time)是指能否在需要的时候获到数据。数据的即时性包括数据采集的时间节点和数据传输的时间节点,在数据源头采集数据后立即存储并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据的即时性就稍差。数据的完整性是指数据采集的程度,即应采集的数据和实际采集到的数据之间的比例。数据的全面性和完整性不同,完整性衡量的是应采集的数据和实际采集到的数据之间的比例。而数据全面性指的是数据采集点的遗漏情况。数据的全面性是一个相对的概念。过度追求数据的全面性是不现实的。数据的关联性是指各个数据集之间的关联关系。数据割裂和数据孤岛是企业经营数据关联性不足导致的。而数据的关联性直接影响到企业经营数据集的价值。 - 数据处理与数据清洗
广义的数据处理包括所有的数据采集、存储、加工、分析、挖掘和展示等工作;而狭义的数据处理仅仅包括从存储的数据中提取、筛选出有用的数据,对有用的数据进行加工的过程是为数据分析和挖掘的模型所做的准备工作。
把数据记录不规范、格式错误、含义不明确等叫作数据的“脏”,其包括几种典型的形式:(1)数据不规范;(2)数据不一致;(3)标准不统一;(4)格式不标准;(5)附加字段。
数据杂质就是在数据集中出现了与数据记录本身无关的数据,就如同大米中出现了沙子,需要在处理数据的过程中将这部分数据剔除。数据噪声,就是看似是有用的数据,但仔细查看后该数据并非该数据集中该有的数据,或者仔细分析后没有价值的数据,当然也有一部分是我们无法解释的与其他数据有差异的数据。与杂质数据不同,噪音数据看似是相关的数据,其实价值不大或者根本没有价值。
数据清洗,就是对原始数据进行规范化的处理,减少数据噪音,消除数据的不一致性,并对某些数据进行加工,以便数据处理软件和数据模型能够直接使用。数据清洗是数据处理的工序之一,目的是提高数据的质量,为数据分析准备有效的数据集。数据清洗的方法有很多,主要与我们所使用的数据处理工具有关。
提高数据清洗速度最有效的方法就是规范数据采集和数据记录,从源头把控数据质量。程序化方法是提高数据清洗工作效率的有效手段。数据清洗工作另外一个非常重要的原则就是:永远给自己留下反悔的余地。清洗数据时尽量不要破坏原始数据。2 数据分析的目的
数据分析的目的是为了对过去发生的现象进行评估和分析,找寻事物存在的证据,并在这个基础上对未来事物的发生和发展做出结论并形成能够指导未来行为的知识或者依据。
数据是数字化的证据——没有记录下来的事情就没有发生过。 - 追溯——追责、求根源、求真相
- 监控——监督、检查、评估、监控、检测
- 洞察——探寻规律,掌握发展的钥匙
- 商机——挖掘未被满足的需求
- 预测——指导未来实践的规律
3 数据分析的思路
- 先总后分,逐层拆解
- 抽丝剥茧,寻踪问迹
- 内涵外延,概念清晰
- 可视化作图——按照认知规律作图展示
点图——相对位置、相关关系:点一般用来标识一个事物的“位置”,以及在“位置”上的相互关系。在做点图时,一般至少要用两个维度来描述事物,然后用点标识该事物在两个维度上的位置关系。散点图是一个比较好的用来标识两个事物之间关系的工具。
气泡图——点图的延伸,结构组合关系、相对位置、分类。
线图——变化趋势、变化特征、规律。
柱形图、条形图——比较大小及结构关系。
饼图——事物的结构配比关系、配方。
面积图——展示累积效果、结构关系、结构变化。
雷达图、扇形图——多维图表,描述事物多个维度的特征。
组合图——以上几种图形组合形成的较为复杂的图形。 - 识图的九个基本方法
1.辅助线;2.找差异,找变化;3.找奇异点、特殊群体;4.找转折点和拐点;5.找特征;6.找问题(4W1H方法可以让数据分析师把握问题的关键,找到问题的根源。);7.找源头;8.找关系;9.找驱动;10.找规律。 - 管理常识是数据分析的基础
在实际工作中,供需关系规律是基本规律,是一个基本的常识,在这个基础上结合供应方差异、需求方差异来解读数据才会更加完整。数据分析人员也需要掌握一些管理学方面的基本常识。管理永远是在管理人和事的关系,对人性有足够的认识才能更好地做好管理工作。
所有的事情都会涉及人和事两个层面,我们把事情做一个分类分析,将其分为两个维度:人和事,用重要程度来衡量会形成一个矩阵,即人事矩阵。人事矩阵:对于人很重要,事情也很重要的“事情”,要采取“双赢”的策略。人不重要,事情很重要,可以采取竞争的策略;人很重要,事情不重要时,我们尽量妥协,确保让对方高兴。
4 对比与对标——识别事物的基本方法
- 对比是识别事物的基本方法
我们识别数据的差异是通过对比来实现的。数据分析师要找寻“差异是有原因的,而相同也是有原因的”。 - 对比——横向、纵向及多维度对比
在使用对比方法时,首先必须要有两个事物或者同一事物的两个状态;其次,必须要有一个对比的标准或者指标。对比的两个事物一个是对比的主体,一个是对比的客体;对比的指标或者标准被称作对比的度量。 - 比值比率背后的逻辑
- 指标的逻辑与管理指标
指标,就是各种评价标准经过加权综合之后得到的具有一定意义的评价体系。数据分析师要根据业务需求做出各种指标的模型,并形成长期的观测数据集,从而验证这种指标的合理性,只有通过长时期实践检验的指标才可以成为公司持续使用的对比指标。一个综合指标企业得使用越久,就越完善,并且可以体现出公司管理的特色。 - 对标的层次和维度
对标有两种基本形式:(1)与自己比;(2)与别人比。
对标的5个维度:(1)规模指标;(2)速度指标;(3)效率指标;(4)效益指标;(5)综合指标。 - 标杆管理与榜样的力量
设定标杆最基本的一个功能是:目标激励并找到达成目标的路径。没有标杆,企业就只会自我感觉良好,并且远远落后竞争对手而不自知,这是非常危险的。5 分类——认知事物的基本方法
分类是由“分”和“类”组成的,其本质就是把事物分开,归到不同的类别中并分别识别,从而获得对事物的重新认知。
基于数据,不要放大数据的内涵和外延 。数据的观测点非常重要,是站在自己的角度还是站在客户的角度来分析,结论是不同的。分类的标准就是分类的维度,一个分类维度叫作单维度,两个分类维度叫作矩阵,三个分类维度就形成了魔方。 - 解构事物的三要素——要素、属性和行为
任何事物都是由不同的结构组成的,事物既然存在结构,我们就可以对其进行解构,但并非所有的结构都可以解构,就像有些工程是不可逆的,解构也有一定的限制条件,解构的方法在大多数情况下也不会是唯一的。基本的解构方法包括:要素、属性和行为。 - 维度分类法
一般情况下,建议采用两个或两个以上维度对事物进行分类时,这些维度相互之间是不相关的,即在数学模型上就是“垂直”的关系,相关系数接近零,严格控制在(-0.3,0.3)范围内。 - 属性分类法
属性分类法就是从事物的属性出发进行分类的方法。按照属性对事物进行分类时,要关注事物的关键属性。 - 流程分类法
流程分类法是按照事物的流程来分类的方法。 - 层级分类法
层级分类法是按照事物构成的层级关系来分类的方法,不同于我们常说的AHP(层次分析法)。 - 分类中的权重设定问题
6 聚类——寻找规律的第一步
聚类就是把分散的多个事物归集成不同的类别。分类和聚类的本质是一样的,都是得到一个最终的能够进行分类管理事物的方法,只是出发点不同:分类从整体出发,聚类从每个事物的具体细节出发。 - 聚类的基本逻辑
聚类的基本逻辑就是按照一定的方法把存在各种差异的事物按照其在某些方面的相似性聚集成几类,类与类之间的差异比较大,而同一类中的事物的差异比较小。所以,对于聚类方法,需要关注两个核心问题:事物之间的相似性,类与类之间的差异性。 - 聚类的因子和主成分
R型聚类常用来降维。聚类的维度之间需要减少相关性的干扰。聚类的算法决定着聚类的效率。主成分分析是一个统计学中的概念。我们在描述一个变量或者一个维度概念时,可以从多个侧面来描述,而这些侧面都反映同一个问题,为了将这些侧面集合为一个维度,我们把所有与这个侧面相关的要素都提取出来并汇集成为一个维度。 - 聚类的步骤
聚类分析包括以下10个步骤。1.确定聚类的标准变量;2.标准化事物描述变量;3.评价事物之间的相似性(差异性)如何计算;4.设计聚类的算法或者程序;5.计算类之间的差异性以及保证类与类之间的距离最大化;6.聚成多少个类更加合适?不同数量的聚类之间有什么不同;7.解读聚类后的事物分类以及描述每一个类别;8.验证聚类结果并应用到实际工作中;9.持续在实践中检验,对业务以及效果进行评估;10.算法的改进和调整。 - 有序聚类与时间序列聚类
7 逻辑关系——寻找事物之间的因果规律
- 相关性与相关系数分析
事物之间的相关性能够帮助我们找到因果关系,以及判断因果关系的强弱,但是事物之间的相关性并非说明其有因果关系。我们通常需要用科学论证或者常识去判断两个事物之间是否存在因果关系。寻求事物之间的因果关系是我们掌控事物发展的手段。通过计算相关系数的方式来衡量两个事物之间逻辑关系的强弱。 - 事物之间的逻辑关系与科学规律
- 果因关系与因果关系,看不见的事物发展逻辑
果因思维,也就是根据事物发展变化的结果,找寻可能影响该结果的原因,然后用数据去验证或者量化这种影响关系。果因思维是数据分析师构建数学模型的基本方法和思维模式。通过果因思维,我们构建数学模型,用数据量化影响结果的因素,就能够探索出事物的“因果关系”,从而得到量化的“因果关系”,以指导企业实践,让企业的管理更加理性化、科学化、数据化。 - 事物发展规律的复杂性与科学抽象
当我们了解了更多的规律、掌握了更多的数据,随机事件就会减少,误差就会减少,偶然事件就会更加可控。事物具有复杂性,即使我们掌握了很多的规律,也只能提高成功的概率,而不能保证一定会成功。科学抽象是数据分析的核心思想之二(核心思想之一是前面介绍的果因思维)。 - 因果关系与回归分析
- 逻辑回归
逻辑回归,其本质与线性回归差异不大,但是判定的结果可能只有两个:输或者赢,是或者非。 - 关联与共生——现象与规律的探寻
数据只能告诉我们现象,却无法告诉我们原因。事物之间有些是因果关系,有些是共生关系(指共同发生、一起存在,彼此之间或许有关联,或许没有任何关联,是时间或者地理位置上的共同存在的关系。),这两种关系在进行数据分析时都体现为“相关关系”。大数据是数据加工的方式,是一种“思考”方式,是能够替代人类大脑工作的一种技术,对这种技术如果不求甚解,则是非常危险的,我们需要构筑一些逻辑关系让数据产生智慧。8 预测——数据分析的终极目标
预测包括现象的预测和规律的预测。
事物是复杂的,我们对事物的认知是有限的,正因如此,事物在发展的过程中会发生超越我们预期的偶然事件和随机事件,我们把这些叫作误差,误差是必然存在的。随着我们对事物的认知越清楚,掌握的信息数据越完善,这个误差就会越小,偶然事件就会越少。预测不准确是正常的,我们不能因为预测不准确而放弃对事物的预测。掌控未来发展是人类的本能,也是人类进化的动力。
通常情况下,有四种预测的方法。1.经验法 ;2.类比法;3.惯性法;4.逻辑关系法。9 结构——事物组成的“配方”
事物的结构特征决定了事物的属性。事物构成要素是如何“结”起来的,决定着事物的本质和属性。事物的结构关系除与要素组成有关外,还与组合的方式和过程有关系。
事物的结构是有基准的。我们的常识是事物的结构最初步的基准。事物的构成要素包括关键要素和非关键要素。关键要素是构成事物核心功能的要素,而非关键要素是构成事物不可或缺的其他要素。关键要素和非关键要素在不同的场景下可能会发生变化。10 各职能部门的具体数据分析
人力资源管理中的数据分析包括两个方面,一方面是人员结构性分析,另一方面是人力效能的分析。
在生产管理领域的数据分析中,有四个维度是需要数据化的,而且这四个维度之间是相互作用的。这四个维度分别是产量(Quantity)、品质(Quality)、成本(Cost)和交期(Time),为了方便记忆这里缩写为TCQQ。
物流和供应链的数据分析主要关注效率和成本。在物流供应管理中有几个关键的优化算法是数据分析师们需要掌握的,包括最优库存周转率(周转次数)、最优库存天数、最佳备货量、最佳配货间隔、最佳配送路径、最佳仓储位置、最优仓库大小等。这些模型都和企业的商业模式有关系,很难有一个标准的模型或公式。11 常用的数据分析工具介绍
Excel作为基础数据处理工具仍是数据分析师广泛使用的核心工。但从当前行业应用来看,数据分析师更倾向于根据场景组合使用以下工具:
一、数据处理类工具
Excel & Power Query: 基础数据处理首选工具,支持数据清洗、公式计算及透视表分析。Power Query可实现自动化数据整合,配合M函数提升效。
Python:通过Pandas库实现大规模数据清洗,numpy/scikit-learn支持数值计算与机器学习。Jupyter Notebook提供交互式数据分析环境。
SQL:数据库管理的核心语言,适用于数据提取、报表开发和复杂查询。
二、统计分析工具
R语言:专为统计建模设计,ggplot2等包实现高级可视化。
SPSS/SAS: 界面化操作适合统计建模,SAS在企业级数据处理中更具优势。
三、可视化与商业智能
Power BI:整合Excel数据源,支持动态仪表板制作与企业级数据建模。
Tableau:交互式可视化工具,擅长复杂数据关系呈现。
四、工具组合建议
初级场景:Excel+SQL+Power B
进阶场景:Python/R+SQL+Tableau
统计建模:SPSS/SAS+R语言
当前工具选择更注重场景适配性,Excel仍承担基础角色,但复杂任务需结合编程工具实现深度分析。
以上内容来自DeepSeek-R1满血版