数据分析对大家是一个既熟悉,又陌生的话题。在今天的数据工具概览篇,笔者将聚焦数据分析的工具,从是什么、有啥用2个方面帮助大家科普各类眼花缭乱的数据分析工具,让大家对数据的工具有一个全面、初步的认知。
数据金字塔:从软件、思维、方法3个维度拆解
数据工具金字塔:从数据获取、数据处理、数据建模和数据可视化这个流程来拆解
PART 01
___
SQL——“性价比之王”
我们往往会把工具类型分为两大类:代码类和界面类。相信很多年纪大的人对早期的计算机有一些认知,早期的电脑都是通过写代码来实现功能的,随着技术的发展,代码慢慢变成了可以交互和操作的界面,这一巨大的转变降低了用户的认知成本和学习成本,也使得计算机能够更快的进入到日常的生活与工作之中(说起这个,乔布斯是早期将计算机从编程到界面转化的推动者)。
计算机从编程到界面的转化
对应数据分析的工具,代码类就是需要通过写代码实现数据的处理、分析和可视化。但界面类的工具则只需用户按照界面指示进行操作,就可以实现数据的处理和分析。
1.1 是什么?
SQL的全称叫做结构化查询语言(Structured Query Language)。属于代码类分析工具,主要的使用场景是数据获取和数据处理。我们日常使用的数据,全都存储在数据库之中,日常工作中需要做数据分析和提取,就需要用到SQL来对原始的数据进行提取,重组。
上面的表可以看做是一张原始的表格,我们通过SQL的提取,可以对不同数据做重新的聚合,得到新的数据计算。
数据来源:https://www.w3schools.com/sql/sql_syntax.asp
掌握一些SQL的好处:对于非数据从业者而言,掌握SQL最大的好处就是,你可以大大的提升自己的工作效率。因为就某一些日常需要查看的数据(比如产品不同页面的流量,不同模块的点击等),如果你不懂SQL,日常的场景就是找产品,找BI,然后BI排期,接着就迎来了漫长的等待(哭)。自己会基础的语句,能够帮助你更加高效的监测数据,发现潜在问题或机会点,推动项目。有了数据作为支撑和加持,项目推动起来更加顺畅啦~怎么样,听起来是不是很香!
1.3 工具评估
上手难度:⭐️⭐️⭐️⭐️(偏难)
使用场景广度:⭐️⭐️⭐️⭐️⭐️(非常广)
是否免费:大部分情况免费(可网上搜索下载MySQL)
PART 02
___
Python——“数据分析界的扛把子”
Python为啥叫扛把子,那是因为它的功能实在是太强大了,当我们复习之前的那张数据工具金字塔的时候,就会震惊的发现,在每一个环节,Python都拥有姓名!
在数据分析的每一个环节,python都可以有所应用
1.1 是什么?
1.2 有啥用?
案例整理from简书:https://www.jianshu.com/p/bc503966751d
上手难度:⭐️⭐️⭐️⭐️⭐️(比较难,尤其对于没有代码基础的同学)
使用场景广度:⭐️⭐️⭐️⭐️⭐️(非常广)
是否免费:免费
PART 03
___
1.1 是什么?
SPSS(Statistical Product and Service Solutions),中文翻译过来叫做“统计产品与服务解决方案”软件。SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。SPSS 比起其他的几个如雷贯耳的数据工具而言,显得着实有那么一点小众。但是有很多心理学、商科的小伙伴对它却很熟悉。没办法,谁叫它是一个能很快上手,但功能又强大的数据分析软件呢(摊手)。
SPSS属于面板式的分析软件,相比代码式的分析软件,SPSS对于非技术从业者和代码小白更加的友好,操作易用性更高,用户只需要知道基础的统计学原理和常用的建模方法,就可以毫无负担的上手。
1.2 有啥用?
SPSS主要是用来做数据处理和数据建模。我们从数据分析框架来进一步进行理解。数据分析的流程包括业务理解-数据理解-数据准备-建立模型-模型评估-分析结果应用几个链路。
数据分析的流程(作者整理图)
其中,在数据理解的部分,SPSS可对数据进行清洗,剔除无效、极端值,并对部分数据进行定义。在模型建立的阶段,我们只需要知道一共有以下几类主流的分析方法即可(具体选择什么算法和评估标准会受到不同数据而有所差异)。
数据分析模型的类型划分及案例(作者整理图)
在建模环节,我们可以直接在SPSS的界面上点选需要的的模型,所选的方法和评估标准,就可以得到建模结果。
1.3 工具评估
PART 04
___
1.1 是什么?
它是一个电子表格软件,可以用来制作电子表格、完成许多复杂的数据运算,进行数据的分析和预测,并且具有强大的制作图表的功能。Excel在我们的日常工作中,更多的是一个记录数据和计算统计的工具。
Excel主要可以实现的功能是数据处理和数据可视化。数据处理过程中我们除了通过各类公式函数进行计算外,更加简单容易上手的就是数据透视表了。数据透视表能够非常高效的将不同数据进行聚合,而可视化则通过图表将数据更加直观的呈现,更方便读者阅读和分析。
1.2 有啥用?
Excel的用处实在太多,通过一篇介绍的文章当然无法面面俱到的介绍,在这里主要说数据处理和数据可视化2个核心的功能。
① 数据处理:主要将原始的数据表格重新进行聚合、分类,以收集到新的数据,找到新的数据洞察。拿以下一组数据为例,数据源是Netflix发布的影视作品,我们可以看到主要有视频时长、影视类型、影视名、添加日期、发布年份、评级、描述、show_id以下几个维度的数据。
拿一组Netflix上线影视作品数据为例
数据来源:https://public.tableau.com/zh-cn/s/resources
在这种情况下,如果我们想要分析不同年份的影视作品的数量,没有用数据透视表的情况下将会耗费≥30min的时间进行人工计算,用数据透视表则只需要一个简单的拖拽就可以实现,并且还可以按照更细的维度进行分析。整个过程只需要1分钟就可以完成。
通过数据透视表处理后的数据(作者整理图)
② 数据可视化:下图为Excel做出的数据可视化看板,是不是完全无法想到Excel能够做出如此高大上的数据看板呢!通过一些筛选操作,我们就可以及时的监测数据,找到数据变化和异常,也因此更高效的发现问题,找到机会点啦~!
PART 05
___
数据可视化工具,除了可视化的呈现,在我们日常工作中,更多的是利用它们“讲故事”,这里的故事并不是随意的编造的故事,而是通过数据可视化工具,有技巧、有逻辑的呈现出一条生动的故事线,让数据更好地支撑与推动商业决策。
Tableau的产品界面
Tableau社区的数据爱好者的作品
来源:Tableau官方社区
PART 06
___
小结
本篇文章来源于微信公众号: TripDesign