qian奇岸微信二维码 如您需要快速报价 请加技术经理微信 服务热线
13501992972
"MENU"
首页 > 行业新闻 > 正文

图象开发与运用图象标签的画面

奇岸开发
ahqian.com
11/04/2022
wechat

无需加好友免费技术支持

介绍:文中通过一个围绕这书的实践案例,能够更好地将您带到具体图象开发与运用图象标签的画面。文中关键阐述了案例背景以及相关元数据,及其开发设计标签里可设计方案的表构造设计风格。

根据本的案例开发设计Spark计算引擎主要包括语言表达HiveQL、Python、Scala、Shell等。

创作者:赵宏田

材料由来:华章科技

某图书电商网址有着100多万元网上购物用户,市场销售100多万元类书籍。用户能够访问、检索、搜集、提交订单、在互联网上选购。大型商场的经营要解决几个问题:

一方面,在公司产品系列逐渐扩大和信息网络资源负载的大环境下,如何有效达到消费者需求,根据的内容精确强烈推荐,能够更好地提升点击转化率;另一方面,在用户规模增长的大环境下,网络运营商考虑到创建用户外流管理机制,立即鉴别用户人群,采用经营对策修复用户。大型商场自成立以来,数据库房累积了很多的业务流程数据、日志数据和埋点数据。怎样深入挖掘数据仓库里积累的数据其价值,合理适用用户人像的建立,已经成为现阶段的重要工作。

在这样的情况下,可获得的数据分成:业务流程数据和用户个人行为数据。业务流程数据就是指用户在互联网上下单、选购、搜集、物流配送等和业务有关的数据;用户个人行为数据就是指用户根据操作行为(在研究日志的埋点表格中)检索信息、页面访问、点击按钮、递交报表等数据。

数据仓库里的表主要包含用户信息表、产品订单表、书籍信息表、图书类别表、App端日志表、Web端日志、商品评价表等。下边详解一些用户人像建模过程中常用的数据表。

1. 用户信息表

用户信息表称、年纪、胎儿性别、联系电话、号码归属等各类信息。

表1-2 用户信息表(dim.user_basic_info)

2. 产品订单表

储存商品订单的各类信息(见表1-3),包含订单编号、用户id、用户名字、订单生成时长、订单信息等信息。

表1-3 产品订单表(dw.order_info_fact)

3. 埋点日志表

储存用户浏览埋点日志表(见表1-4)App点一下有关控制一个点纪录。从日志数据中剖析手机客户端的埋点。

表1-4 埋点日志表(ods.page_event_log)

4. 浏览日志表

储存用户浏览日志表(见表1-5)App用户的有关信息LBS从日志数据中剖析有关信息。

表1-5 浏览日志表(ods.page_view_log)

5. 商品评价表

储存用户对产品的留言信息(见表1-6)。

表1-6 商品评价表(dw.book_comment)

6. 检索日志表

储存用户的检索日志表(见表1-7)App搜索有关日志数据。

表1-7 检索日志表(dw.app_search_log)

7. 用户个人收藏表

用户个人收藏表(见表1-8)纪录用户个人收藏。

表1-8 用户个人收藏表(dw.book_collection_df)

8. 加入购物车信息表

加入购物车信息表(见表1-9)纪录用户在加入购物车中加入书籍的数据。

表1-9 加入购物车信息表(dw.shopping_cart_df)

图象开发设计时需要处理的表总体设计也是一个关键难题。

表结构定制的关键是考虑到储存什么信息,怎样储存(数据系统分区),怎样运用(如何提取标签)。

不同类型的业务背景有着不同的设计理论,这里还有二种设计构思:一种是日常全数据的表构造;另一种是日常增加量数据的表构造。

Hive必须全方位扫描仪键入以适应查询条件,能够根据使用系统分区优化查询。针对用户标签等日常解决数据,系统分区总数随时间变化匀称。

每日全量数据,即截止到当日的全量用户数据保存在表中日期系统分区中。比如,“select count(*) from userprofile where data=这话查询是userprofile截止到2018年7月1日的所有用户数据。每日全量数据的优势是查看便捷,主要缺点用户个人行为不便探寻更粗粒度。

每日增加量数据,即用户个人行为数据保存在表中日期系统分区中。比如,它还是select count(*) from userprofile where data=这个句子查询是userprofile用户个人行为数据保存在2018年7月1日。

日增加量数据可以看作ODS层用户个人行为人像在运用中应该根据增加量数据进一步模型。

下边阐述了这几种表结构的设计理论。

1. 日全量数据

在每一日全量数据表格中,将截止到当日的全量数据插进每日对应的日期系统分区。用户查看时,仅需查看近期一天的数据即可领取最新全量数据。以下属于日全量表构造具体的事例。

这儿userid表示用户id,labelweight表示标签权重值,theme二级主题风格表明标签所属,labelid表示标签id。根据“日期 二级主题风格归属于标签 标签id在区域中设定三个系统分区字段名,比较容易开发与查看数据。

表结构中的标签权重值仅考虑到统计分析种类标签的权重值。比如,历史时间采购金额标签相对应的权重值为额度,用户近30天浏览日数为对应的日数。权重计算不顾及用户个人行为频次、个人行为种类、个人行为时间等繁杂状况。

根据表名结尾增加_all规范化取名方式,能够直接地看得出这也是一张日全量表。

比如,针对主题风格为非会员标签,能通过句子插进日的全量数据:insert overwrite table dw. userprofile_userlabel_all partition(data_date= "", theme= "member", labelid="ATTRITUBE_U_05_完成001)。

在日查看被贴了VIP标签的用户总数,可以通过句子:select count(distinct userid) from

dw.userprofile_userlabel_all where data_date=来达到。

2. 日增加量数据

日增加量数据表,将要当日业务流程运作所产生的数据插进日期系统分区。用户能通过限定查询日期范畴来寻找在一定时间段内贴了特殊标签的用户。以下属于日增加量表结构具体的事例。

这儿,labelid标签名字表明;cookieid表示用户id;act_cnt表示用户当日的举动频次,假如用户当日访问某三类产品3次,则打3次;tag_type_id母婴用品、3等标签种类C、不同种类的数据等;act_type_id表示访问、检索、搜集、提交订单等情形种类。按日期系统分区,插进当日数据。

根据表名结尾增加_append规范化取名方式,能够形象化看得出这是一个日增加量表。

比如,用户在日访问某3C电子器件产品4次(act_cnt),即给该用户(userid)贴了产品相对应的三级类目标签(tagid),标签种类(tag_type_id)为3C电子器件产品,个人行为种类(act_type_id)为访问。

这儿能通过配备标签种类与行为类别的维度表来管理数据。比如,个人行为种类(act_type_id)字段可设为消费行为、访问个人行为、个人收藏个人行为等。用户个人行为种类还可以在个人行为标签表格中界定,每一个值相对应的实际含意还可以在维度表中维护保养。

当日增加量数据表可以看作ODS层用户个人行为标签清单。比如,在查找全过程中id针对001用户,能通过指令查看自身在日到日被贴里的标签:select * from

dw.userprofile_act_feature_append where userid = "001" and data_date>="" and data_date<= ""查看。<= ""查看。

当日增加量的表构造展示了用户日常个人行为所带来的标签,但却没有测算用户标签的权重值,必须进一步模型。

3. 宽表设计

怎样设计用户人像表结构,没必要遵照的固定格式,达到项目需求,能够满足应用软件。以下属于2个宽表设计案例的另一个解决方法。

用户特性宽表设计(见表1-10),关键纪录用户本质属性信息。

表1-10 用户特性宽表设计

关键纪录用户每日浏览的信息。

表1-11 用户日活跃性宽表设计

创作者:杰出大数据资深专家赵宏田分别在地质大学(武汉市)和武大得到工程及社会经济学双学士。在数据、数据分析与数据实际操作领域有多年来的社会经验,善于Hadoop、Spark及其业务流程数据剖析、数据库房开发设计、网络爬虫、用户人像平台建设等各大数据技术性。知乎专栏作者开源软件的推动者,编写了很多的技术专业文章内容,深受欢迎。有畅销书籍《数据实际操作:系统方法与实践案例》。

文中节选自出版公司授权《用户人像:科学方法论与工程项目解决方法》。(ISBN:)

用户人像:方法论和工程项目解决方法

强烈推荐语言表达:这是从技术性、产品和运营三个方面表述怎样从0到1搭建用户人像全面的工作中,又为怎么使用用户人像系统软件来助推企业的收入增加带来了解决方法。作者在大数据研发与数据经营方面有着自己的经验。他参加并协助基本建设好几个1数亿级的用户人像系统软件,在规划、开发与降落解决方法方面有着丰富经验。

热度463

了解更多图象开发与运用图象标签的画面欢迎联系奇岸开发客服。

奇岸开发可定制企业官网小程序、小程序商城、餐饮外卖小程序、预约小程序、多门店小程序、分销小程序及个人小程序。

微信二维码

微信长按识别或扫一扫,无需加好友直接咨询,企业网站开发、网站托管维护、企业管理系统开发、微信小程序制作、域名主机、网站备案、网站改版等提供专业技术解答。

精彩推荐

猜你喜欢