基于COOKIE的点击流数据仓库构建思路(三)
上一篇:基于COOKIE的点击流数据仓库构建思路(二) 网站数据是企业数据的重要组成部分,在大型企业中,数据通常以关系型数据仓库进行存储。当然,部分企业也在向基于Hadoop等开源框架的分布式非关系型数据仓库结构转变,但这仍只是少数。大部分公司仍然是关系型数据仓库(RDB)居于主流。接下来的三篇文章会介绍三种基于Cookie的点击流数据仓库构建思路。本篇是第三篇,基于Webtrekk、Webtrends底层数据的数据仓库作为原型。 Webtrekk和Webtrends的数据仓库模型把每一个事实进行拆分,分为搜索、点击、购物车事件、订单事件、表单事件、媒体事件共6个事实表,纬度表分为页面纬、推荐来源纬、站外广告纬、表单纬、媒体纬、时间纬、自定义客户纬、事件纬、商品纬等共10个纬度。 事实表
纬度表
数据仓库逻辑模型 以上事实表和维度表构成了这样的一个数据仓库模型: 由于存在非常多的维度表和事实表,所以关系看起来比较复杂,大体结构如下: 以维度表为说明维度:
上面这些事实和维度表是主要的底层表,除此以外,还可能会包括站内促销事实表和维度表(内部广告位等跟踪),订单维度表 (如自建和第三方等信息),围绕产品ID展开的产品属性信息,围绕会员ID展开的会员事实和属性信息,围绕订单展开的物流配送信息等。当然,这些扩展开就形成了企业级数据仓库雪花型模型。 到这里,点击流数据仓库模型构建思路基本就写完了,还是那句话,没有一个模型适用于一切业务场景。数据仓库模型只是万里长征其中的一步,从底层的原始LOG采集,到ETL格式化后进入数据仓库,进而结合公司其他数据构建企业级数据仓库,然后针对不同部门或业务场景构建数据集市,在此基础上进行数据挖掘、即席分析、报表设计,甚至要做系统开发(网站流量系统、个性化推荐系统等) 都有大量的工作在里面。另外,集中式的数据仓库架构已经不适合web2.0甚至之后发展的数据需求了,分布式关系型数据仓库、基于Hadoop的开源HIVE和HBASE的NOSQL数据库也会慢慢发展起来。 注:相关网站建设技巧阅读请移步到建站教程频道。 (编辑:佛山站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |