基于COOKIE的点击流数据仓库构建思路(二)
上一篇:基于COOKIE的点击流数据仓库构建思路(一) 网站数据是企业数据的重要组成部分,在大型企业中,数据通常以关系型数据仓库进行存储。当然,部分企业也在向基于Hadoop等开源框架的分布式非关系型数据仓库结构转变,但这仍只是少数。大部分公司仍然是关系型数据仓库(RDB)居于主流。接下来的三篇文章会介绍三种基于Cookie的点击流数据仓库构建思路。本篇是第二篇,基于开源的Piwik底层数据的数据仓库作为原型。 Piwik的底层数据表包括piwik_log_visit、piwik_log_conversion、piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action共6个基础表,当然除了这些表以外还有归档表、系统运维表等。 Piwik底层仓库以piwik_log_visit和piwik_log_conversion为事实核心,以piwik_log_conversion_item、piwik_log_link_visit_action、piwik_goal、piwik_log_action为纬度表形成的。 下面是对各个表的基本介绍
Piwik数据仓库的模型如下: 这种模型的好处是把一张大表进行查词拆分,并以访问和转化为拆分依据,形成两个事实核心的数据仓库。当然,piwik的数据仓库还是比较简单,由于该工具本身的功能性一般,没有特别多的特色功能,因此也没有很多纬度。不过它的优势在于本地化安装和数据处理,且部署简单,加上其开源性可以节省网站系统费用,底层的数据已经经过一轮清洗,开发难度小,比较容易在初创型公司使用。当然,由于是开源的,该工具没有很好的服务支持,专业并且了解底层的网站分析师是必须的。 我相信,它的基本功能已经可以满足大多数企业的日常需求,很多商用网站分析工具比它好的地方也不过是服务支持较好(看国内服务商情况)、正负向路径的无限扩展(Piwik本身有路径,虽然还不是很强大)、强大的自定义功能(虽然没有太多变量,但piwik的5个自定义群体和虚拟事件基本上可以满足一般需求)、实时数据(Piwik是本地化的,实时性根据系统硬件和定时JOB完成)。因此其开源性、结构化数据、本地化是比较吸引我的地方,我知道有的公司已经基于piwik在做数据仓库开发和上层报表的应用,中小企业百万级的流量处理能力还是没有问题的。 下一篇:基于COOKIE的点击流数据仓库构建思路(三) 注:相关网站建设技巧阅读请移步到建站教程频道。 (编辑:佛山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |