如何用SQL分析电商用户行为数据(案例)

如何用SQL分析电商用户行为数据(案例)

        

本文以“淘宝用户行为数据集”的分析全过程为例,展示数据分析的全过程

——使用工具:MySQL,Excel,Navicat,PowerBI

——分析类型:描述分析,诊断分析

——分析方法:漏斗分析,用户路径分析,RFM用户价值分析,活跃/存留分析,帕累托分析,假设验证分析。

(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)

(目录如下)

       

1.分析流程和方法

当没有清晰的亩尺数据看板时我们需要先清洗杂乱的数据,基于分析模型做可视化,搭建描述性的数据看板。

然后基于描述性的数据挖掘问题,提出假设做优化,或者基于用户特征数据进行预测分析找规律,基于物皮规律设计策略。简单来说:

——描述性分析就是:“画地图”

——诊断性分析就是:“找问题”

——预测性分析就是 :“找规律”

在数据分析中有两个典型的场景:

一种是有数据,没有问题:需要先整体分析数据,然后再根据初步的描述分析,挖掘问题做诊断性分析,提出假设,设计策略解决问题。

 

另一种是已经发现了问题,或者已经有了假设,这种做数据分析更偏向于验证假设。

 

2.淘宝用户行为分析

本次是对“淘宝用户行为数据集”进行分析,在分析之前我们并不知道有什么问题,所以需要先进行描述性分析,分析数据挖掘问题。

我们首先来看下这个数据集的迅蚂高元数据:

       

根据数据字段我们可以拿用户行为为主轴从纵深方向提出一些问题,然后再从数据中找答案

       

纵向:

——这个数据集中用户的日活跃和周活跃时间有什么规律吗?

——在当日活跃的用户次日,三日,四日……还有多少活跃?

深向:

——用户从浏览到购买的整体转化率怎么样?

——用户从浏览到购买的路径是怎么样子的? 

——平台主要会给用户推送什么商品?

——用户喜欢什么类目?喜欢什么商品? 

——怎么判断哪些是高价值用户 ? 

 

 

下面是叮当整理的常用分析方法:      

我们可以给前面的问题匹配一下分析方法,便于后面的分析:

为了便于后面的数据分析,在分析之前我们需要先对做一下清洗

看元数据(字段解释,数据来源,数据类型,数据量……)初步发现问题为之后的处理做准备。

       

确定缺失值范围,去除不需要字段,填充缺失内容    

根据元数据格式和后续分析需要的格式对数据进行处理

  

去除重复值,异常值

——去除重复值:并把用户ID,商品ID,时间戳设置为主键

——异常值处理:查询并删除2017年11月25日至2017年12月3日之外的数据

     

查询并删除小于2017-11-25的

——验证数据:      

——分析思路:

——SQL提数:

       

       

——Excel可视化:

       

活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。

用户在周六周日相比其他时间更活跃(周六周日为休息日,用户有更多时间)

      

一天内用户活跃的最高峰期为21点(用户在这个时间段空闲较多)

 

——分析思路:

——SQL提数:

列出每用户每天及当天后面又活跃的日期,并创建“活跃时间间隔表”用于后面求次日存留,三日存留……

       

对“活跃时间间隔表视图”引用进行分组统计,计算每日存留人数并创建视图

对存留人数表进行计算,统计活跃用户留存率

——Excel可视化:

       

——分析思路:

——SQL提数:

-把各种用户行为分离出来并创建视图方便后续查询用户行为数据

查询整体数据漏斗

——Excel可视化:

       

用户从浏览到购买整体转化率2.3%,具体主要在哪个环节流失还需要再细分用户路径分析

 

——分析思路:

       

——SQL提数:

——PowerBI可视化:

       

用户从浏览到购买的路径主要有4条,路径越长转化率越底

路径1:浏览→购买:转化率1.45%

路径2:浏览→加购物车→购买:转化率0.33

路径3:浏览→收藏→购买:转化率0.11%

路径4:浏览→收藏→加购物车→购买:转化率0.03%

——分析思路:

——SQL提数:

——Excel可视化:

       

——描述性分析:

浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。

浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。

——分析思路:

——SQL提数:

查询计算商品转化率,升序排列,取前100个

       

——Excel可视化:

       

——描述性分析:

从商品看:有17款商品转化率超过了1。

从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。

——分析思路:

用户价值分析常用的分析方式是RFM模型

       

本次分析中的R,F,M具体定义(仅用于演示分析方法,无实际业务参考价值):

 

——SQL取数与分析:

1)建立打分标准:先计算R,F的值,并排序,根据R,F值最大值和最小值得区间设计本次得打分标准

-查询并计算R,F值创建视图

       

-引用RF数值表,分别查询R,F的最大值和最小值

       

       

-结合人工浏览的建立打分标准      

2)给R,F按价值打分

3)计算价值的平均值

       

4)用平均值和用户分类规则表比较得出用户分类   

     

——Excel可视化      

 

通过描述性分析得到可视化的数据后我们一般会先看一下是否符合业务常识

如果符合常识接下来我们会通过与行业平均数据和本产品的同比环比对比看是否正常,如果不正常就要找原因,设计解决方案,如果正常那就看是否有可以优化的地方。

       

我们首先来看一下这些描述性分析是否符合业务常识和指标是否正常:

       

1.活跃曲线整体为上升状态,同为周六日,12月2号,3号相比11月25日,26日活跃度更高。

2.用户在周六周日相比其他时间更活跃

3.一天内用户活跃的最高峰期为21点

4.从2017年11月15日致2017年12月3日,活跃用户新增38%

5.从2017年11月15日致2017年12月3日,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

6.用户从浏览到购买整体转化率2.3%

7.用户从浏览到购买的路径主要有4条,路径越长转化率越低。

8.浏览量top100的商品浏览量呈阶梯分布,越靠前的阶梯之间的落差相对越大在这个阶梯中的商品越少,越靠后商品浏览量阶梯之间的落差相对越小,同阶梯内的商品越多。

9.浏览量TOP100的商品所属类目中,4756105,3607361,4357323三个类目浏览量远超其他类目。

10.从商品看:有17款商品转化率超过了1。

11.从类目看:这些商品所属类目分布均匀,除965809,4801426,2735466,2640118,5063620,4789432,2945933这7个类目之外,其他类目都只有一个商品在转化率TOP100的商品中。

根据诊断分析我们梳理出了以下假设,做假设验证。

       

 

假设1:这些商品中有高转化率的爆款商品

       

 

对比浏览量TOP5的商品,发现这些商品转化率在同一类目下并不高,假设不成立

 

假设2:4756105,3607361,4357323三个类目属于高频刚需类目

-创建类目购买频次表

       

-计算类目购买频次平均值

       

-查询4756105,3607361,4357323三个类目的购买频次       

4756105,3607361,4357323三个类目的用户购买频次明显高于平均值,假设成立

 

假设3:有部分用户是未点击商详直接从收藏和购物车购买的。

       

用户不是直接从收藏和购物车购买的,只是后续复购未点击商详,假设不成立

 

假设4:淘宝推荐的商品主要是“同一类目下的高转化商品”

       

用Excel对浏览量TOP100的商品ID和转化率TOP100的商品ID进行去重,结果无重复值,假设不成立

3.结论:

1)用户活跃:用户活跃曲线整体呈上升趋势,在一周中周六,周日活跃度比平时更高,在一天中用户活跃曲线从凌晨4点开始往上升,在中午12点和下午5~6点有两个小低谷(吃饭),到晚上9点时活跃度达到顶峰。

 

2)用户留存:从2017年11月15日致2017年12月3日的用户留存数据来看,淘宝的用户留存数据较好,活跃用户次日留存增长18.67%,当日的活跃用户留存也在快速增长,第七日留存比次日留存高18.56%。

 

3)用户转化:整体转化2.3%,用户从浏览到购买的路径主要有4条,路径越长转化率越低。

4)平台推荐与用户偏好:从数据集中的数据来看,排除用户兴趣偏好标签,淘宝给用户用户推送的商品主要是高频刚需的类目,促使用户复购,流量回流平台。

 

结论受数据量和数据类型的影响,并不一定准确,仅用来练习数据分析方法。

(考虑到阅读体验文章中只放了SQL截图,如需PDF版本,再公众号后台回复“用户行为分析”领取)

SQL计算电商各项指标数据

本次笔记主要是记录通过SQL计算电商各项指标数据,包括AARRR部分指标、RFM模型等常用的指标数据;

平台指标:

商品指标:

用户行为指标:

RFM模型:见之前的文章《 SQL建立RFM模型指标的两种方法对比 》

用户留存率:见之前文章《 SQL 查询用户留存率(根据两种不同定义计算) 》

首先我们导入相关数据,并去重数据放进新表 temp_trade;

由于时间关系,以导入如下数据,期间利用

SET date_time = STR_TO_DATE(time,'%Y-%m-%d %H');

set dates=date(date_time);

这两个函数对原表(红框)日期进行处理;

再检查一下关键字段有无缺失值

查询后得出并无缺失。

查询结果无异常值;

检查用户行为数据有没有其他类型;

查询结果无异常值;

-- 建新袜唤液表,放进 去重后的 数据

create table temp_trade like o_retailers_trade_user;

insert into temp_trade select distinct * from o_retailers_trade_user;

查询结果:

这里定义跳失率=只有浏览行为的用户数/总用户数

查询结果

这里的购买转化率定义为:某段时间产生购买行为的用户数/所有到达店铺的访客人数

查询结果:

同时可链拍以通过这算法求得:每天总行为次数、每天点击次数、收藏次数、加购物⻋次数、购买次数

查询结果如下:

由于转化率的对象是商品,所以以商品id做分组,求对应的用户行为数求和。可得出每商品的在该段时间内的浏览、收藏、加购、购买次数,同时可求得商告物品购买转化率。

查询结果:

此方法与上面商品转化率大致相同,分组对象改为品类id即可。

查询结果:

首先创建hours的新字段,并提取时间;

查询结果如下:

首先求出各用户的购买次数

查询结果:

用case when函数统计出各复购买次数的用户数

查询结果如下:

最后将行为串联起来,并对其进行用户数统计;

查询结果如下:

(完结)

SQL是什么意思

分类: 电脑/网络

解析:

sql

SQL全称是“结构化查询语言(Structured Query Language)”,最早的是IBM的圣约瑟研究实验室为其关系数据库管理系统SYSTEM R开发的一种查询语言,它的前身是SQUARE语言。SQL语言结构简洁,功能强大,简单易学,所以自从IBM公司1981年推出以来,SQL语言,得到了广泛的应用。如今无论是像Oracle ,Sybase,Informix,SQL server这些大型的数据库管理系统,还是像Visual Foxporo,PowerBuilder这些微机上常用的数据库开发系统,都支持SQL语言作为查询语言。

SQL是高级的非过程化编程语言,允许用户在高层数据结构上工作。他不要求用户指定对数据的存放方法,也不需要用户烂宏了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统可以使用相同的侍历漏SQL语言作为数据输入与管理的接口。它以记录 *** 作为操纵对象,所有SQL语句接受 *** 作为输入,返回 *** 作为输出,这种 *** 特性允许一条SQL语句的输出作为另一条SQL语句的输入,所以SQL语言可以嵌套,这使他具有极大的灵活性和强大的功能,在多数情况下,在其他语言中需要一大段程序实现的一个单独事件只需要一老烂个SQL语句就可以达到目的,这也意味着用SQL语言可以写出非常复杂的语句。

SQL同时也是数据库文件格式的扩展名。

SQL语言包含4个部分:

数据查询语言(SELECT语句)

数据操纵语言(INSERT, UPDATE, DELETE语句)

数据定义语言(如CREATE, DROP等语句)

数据控制语言(如COMMIT, ROLLBACK等语句)

sql是什么意思

SQL(Structured Query Language)是具有数据操纵和数据定义等多种功能的数据库语言。

SQL语言具有交互性特点,能为用户提供极大的便利,数据库管理系统应充分利用SQL语言提高计算机应用系统的工作质量与效率。SQL语言不仅能独立应用于终端,还可以作为子语言为其他程序设计提供有效助力,该程序应用中,SQL可与其他程序语言一起优化程序功能,进而为用户提供更多更全面的信息。

SQL作为一种操作命令集, 以其丰富的功能受到业内人士的广泛欢迎, 成为提升数据库操作效率的保障。SQL Server数据库的应用,能够有效提升数据请求与返回的,有效应对复杂任务的处理,是提升工作效率的关键。

SQL语言操作

1、数据定义:定义数据库的竖明逻辑结构,包括定义数据库、基本表、视图和索引4部分。

2、数据操纵:包括插入、删除和更新三种操作。

3、数据查询:包括数据查询操作。

4、数据控制:对用户访问数据氏告的控制有基本表和视图的授权及回收。

5、事务控制:包括事务的提交与回滚。

6、嵌入式SQL语言的使用规定:规定SQL语句在宿主语言歼纤明的程序中使用的规则。

SQL什么意思

SQL是Structured Quevy Language(结构化查询语言)的缩写。SQL是专为数据库而建立的操作命令集,是一种功能齐全的数据库语言。在使用它时,只需要发出“做什么”的命令,“怎么做”是不用使用者考虑的。SQL功能强大、简单易学、使用方便,已经成为了数据库操作的基础,并且现在几乎所有的数据库均支持SQL。 <br>

##1 二、SQL数据库数据体系结构 <br>

SQL数据库的数据体系结构基本上是三级结构,但使用术语与传统关系模型术语不同。在扰码SQL中,关系模式(模式)称为“基本表”(base table);存储模式(内模式)称为“存储文件”(stored file);子模式(外模式)称为“视图”(view);元组称为“行”(row);属性称为“列”(column)。名称对称如^00100009a^: <br>

##1 三、SQL语言的组成 <br>

在正式学习SQL语言之前,首先让我们对SQL语言有一个基本认识,介绍一下SQL语言的组成: <br>

1.一个SQL数据库是表(Table)的集合,它由一个或多个SQL模式定义。 <br>

2.一个SQL表由行集构成,一行是列的序列(集合),每列与行对应一个数据项。 <br>

3.一个表或者是一个基本表或者是一个视图。基本表是实际空脊存储在数据库的表,而视图是由若干基本表或其他视图构成的表的定义。 <br>

4.一个基本表可以跨一个或多个存储文件,一个存储文件也可存放一个或多个基本表。每个存储文件与外部存储上一个物理文件对应。 <br>

5.用户可以用SQL语句对视图和基本表进行查询等操作。在用户角度来看,视图和基本表是一样的,没有区别,都是关系(表格)。 <br>

6.SQL用户可以是应用程序,也可以是终端用户。SQL语句可嵌入在宿主语言的程序中使用,宿主语言有FORTRAN,COBOL,PASCAL,PL/I,C和Ada语言等。SQL用户也能作为独立的用户接口,供交互环境下的终端用户使用。 <br>

##1 四、对数据库进行操作 <br>

SQL包括了所有对数据库的操作,主要是由4个部分组成: <br>

1.数据定义:这一部分又称为“SQL DDL”,定义数据库的逻辑结构,包括定义数据库、基本表、视图和索引4部分。 <br>

2.数据操纵:这一部分又称为“SQL DML”,其中包括数据查询和数据更新两大类操作,其中数据更新又包括插入、删除和更新三种操斗李渗作。 <br>

3.数据控制:对用户访问数据的控制有基本表和视图的授权、完整性规则的描述,事务控制语句等。 <br>

4.嵌入式SQL语言的使用规定:规定SQL语句在宿主语言的程序中使用的规则。 <br>

下面我们将分别介绍: <br>

##2 (一)数据定义 <br>

SQL数据定义功能包括定义数据库、基本表、索引和视图。 <br>

首先,让我们了解一下SQL所提供的基本数据类型:(如^00100009b^) <br>

1.数据库的建立与删除 <br>

(1)建立数据库:数据库是一个包括了多个基本表的数据集,其语句格式为: <br>

CREATE DATABASE <数据库名> 〔其它参数〕 <br>

其中,<数据库名>在系统中必须是唯一的,不能重复,不然将导致数据存取失误。〔其它参数〕因具体数据库实现系统不同而异。 <br>

例:要建立项目管理数据库(xmmanage),其语句应为: <br>

CREATE DATABASE xmmanage <br>

(2) 数据库的删除:将数据库及其全部内容从系统中删除。 <br>

其语句格式为:DROP DATABASE <数据库名> <br>

例:删除项目管理数据库(xmmanage),其语句应为: <br>

DROP DATABASE xmmanage <br>

2.基本表的定义及变更 <br>

本身独立存在的表称为基本表,在SQL语言中一个关系唯一对应一个基本表。基本表的定义指建立基本关系模式,而变更则是指对数据库中已存在的基本表进行删除与修改。 <br>

……<br>

想要成长,必定会经过生活的残酷洗礼,我们能做的只是杯打倒后重新站起来前进。上面关于电商sql是什么意思的信息了解不少了,一束青草希望你有所收获。