-
[bigdata-026] 大数据principle No.1~No.4
所属栏目:[大数据] 日期:2020-12-31 热度:56
Principle No.1 只有干净的数据才能进入存储。 这个原则是极其重要。 1. 大数据eco,唯一的优点是处理海量数据,但是工具一般都不完善,藏着各种坑。不像传统数据库和传统功能,完备精致。 2. 最佳的使用方式就是:数据是干净清洁完美的,用大数据工具处理,[详细]
-
大数据处理算法一:BitMap算法
所属栏目:[大数据] 日期:2020-12-31 热度:137
腾讯面试题:给20亿个不重复的unsigned int的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中并且所耗内存尽可能的少? ?解析:bitmap算法就好办多了 ?所谓bitmap,就是用每一位来存放某种状态,适用于大规模数据,但数据状态又不[详细]
-
大数据处理算法二:Bloom Filter算法
所属栏目:[大数据] 日期:2020-12-31 热度:179
百度面试题:给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? Bloom?Filter 是由 Bloom 在 1970 年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不[详细]
-
数据意识崛起,从企业应用看BI软件的未来发展
所属栏目:[大数据] 日期:2020-12-31 热度:167
前阵子,和一群企业CIO聊天,希望从甲方角度看看对BI产品的看法。在问及一些成熟企业为何不上BI项目时,大家纷纷表示目前还处于观望状态。 提及BI,大家都觉得有些飘忽,和大数据一样,听着高大上,能真正实现落地的并没有多少,性价比甚至不如一个报表工具[详细]
-
宋慧庆|广告系统中的大数据处理
所属栏目:[大数据] 日期:2020-12-31 热度:114
宋慧庆 ,时趣互动 移动广告架构师 十余年互联网老司机,具有多年互联网广告系统研发经验,负责研发个性化动态创意系统,用户画像标签系统以及大数据治理;对编程语言有浓厚的兴趣。 什么是大数据? 从具备4V(Volume,Velocity,Variety,Value)特征的大量[详细]
-
25、Power Query-日期与时间数据处理
所属栏目:[大数据] 日期:2020-12-31 热度:63
本节知识点:Power Query-日期与时间数据处理 日期与时间数据处理功能位置(同样在“转换”和“添加列”菜单中都存在): 这里重点讲解一下某些知识点。 比如年限:意思是当前系统日期减去选中列的日期,结果以“天时分秒毫秒”方式显示。 月份下面的“一个[详细]
-
使用R语言挖掘QQ群聊天记录
所属栏目:[大数据] 日期:2020-12-30 热度:145
数据挖掘入门与实战 ?公众号: datadw 1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—Change dir[详细]
-
视音频数据处理入门:PCM音频采样数据处理
所属栏目:[大数据] 日期:2020-12-30 热度:67
===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB、YUV像素数据处理 视音频数据处理入门:PCM音频采样数据处理 视音频数据处理入门:H.264视频码流解析 视音频数据处理入门:AAC音频码流解析[详细]
-
视音频数据处理入门:AAC音频码流解析
所属栏目:[大数据] 日期:2020-12-30 热度:198
===================================================== 视音频数据处理入门系列文章: 视音频数据处理入门:RGB、YUV像素数据处理 视音频数据处理入门:PCM音频采样数据处理 视音频数据处理入门:H.264视频码流解析 视音频数据处理入门:AAC音频码流解析[详细]
-
自从有了BI商业智能系统,再也不用担心我的作图了!!!(图文)
所属栏目:[大数据] 日期:2020-12-30 热度:67
最近使用spotview商业智能系统,简单的一点体验分享一下。 这是一个金蝶公司合作的产品,纯B/S架构,设计页面和展示端,现在这已经是不可抵挡的趋势了。只有后台设计模型是需要在服务器上做,类似于数据库里做视图,只要将有关联表的字段用线连接起来就OK了[详细]
-
使用 R 语言挖掘 QQ 群聊天记录
所属栏目:[大数据] 日期:2020-12-30 热度:182
1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—Change dir 切换到聊天文件所在目录。 引入包: li[详细]
-
大数据分析相关
所属栏目:[大数据] 日期:2020-12-30 热度:151
类比: 谈谈互联网后端基础设施 www.rowkey.me/blog/2016/08/27/server-basic-tech-stack/ 文件系统: ??? hdfs 数据库: ?? hbase 计算系统: ?? hive sql管理和定时执行平台: ??? 阿里宙斯zeus.(自称调度,并没有资源协调功能,有hive本身完成) 统计分析和展现平[详细]
-
[bigdata-022] hive和impala的对hbase的精细order by操作
所属栏目:[大数据] 日期:2020-12-30 热度:54
1. 要用hive给hbase的表创建一个外部表。不能用impala,因为它在这块有缺陷。 2. 在hive创建一个本地表,注意,一定不要创建在hbase上。 3. 在hive里,执行order by命令,对外部表进行排序,然后将排序结果写入到2创建的hive本地表。这时候,因为order by是[详细]
-
大数据分析当人们谈《鬼吹灯》时,都谈些什么?
所属栏目:[大数据] 日期:2020-12-30 热度:134
文 | 艾漫数据 近日,又一部考古探险题材网剧火热上线,老干部靳东搭档陈乔恩主演的《鬼吹灯之精绝古城》。相比之前同类型作品,这次的改编开播后的口碑可以用“交口称赞”形容,上线两周后好评率达到87%以上。 小编不禁好奇,究竟是什么样的内容,引得观众[详细]
-
分享 :2017年商业智能 BI 发展趋势分析
所属栏目:[大数据] 日期:2020-12-30 热度:196
在展望2017年商业智能 BI 发展趋势前,我们先来了解一下商业智能?BI?发展的几个重要阶段。 传统 BI 和新型 BI 的分水岭(2013年) 大背景 在2013年以前相当长的一个周期(2005年-2013年),市场主要流行的商业智能BI产品以?SAP BO、Oracle BIEE、IBM Cognos?[详细]
-
leetcode 43. Multiply Strings 9大数相差(java实现)
所属栏目:[大数据] 日期:2020-12-30 热度:119
原题: Given two non-negative integers? num1 ?and? num2 ?represented as strings,return the product of? num2 . Note: The length of both? num2 ?is 110. Both? num2 ?contains only digits? 0-9 . Both? num2 ?does not contain any leading zero. Yo[详细]
-
pyhive 连接 Hive 时错误
所属栏目:[大数据] 日期:2020-12-27 热度:157
一、User: xx is not allowed to impersonate xxx' 解决办法:修改 core-site.xml 文件,加入下面的内容后重启 hadoop 。 property namehadoop.proxyuser.xx.hosts/name value*/value/propertyproperty namehadoop.proxyuser.xx.groups/name value*/value/pr[详细]
-
分布式基础通信协议:paxos、totem 和 gossip(转载)
所属栏目:[大数据] 日期:2020-12-27 热度:188
背景: 在分布式中,最难解决的一个问题就是多个节点间数据同步问题。为了解决这样的问题,涌现出了各种奇思妙想。只有在解决了如何进行信息同步的基础之上才衍生出形形色色的应用。这里开始介绍几种分布式通信协议。 简单即有效——totem协议: totem协议也[详细]
-
Hive 导入 parquet 格式数据
所属栏目:[大数据] 日期:2020-12-27 热度:172
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式 构造建表语句 倒入数据 一、查看 parquet 内容和结构 下载地址 社区工具 GitHub 地址 命令 查看结构: java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parque[详细]
-
Presto 常用配置及操作
所属栏目:[大数据] 日期:2020-12-27 热度:193
一、介绍 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。 Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。 推荐阅读 Presto实现原理和美团的使用实践 二、安装 2.1[详细]
-
大数据的技术生态概述(转载)
所属栏目:[大数据] 日期:2020-12-27 热度:125
如何用形象的比喻描述大数据的技术生态?Hadoop、Hive、Spark 之间是什么关系? 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各[详细]
-
九种常见的数据分析模型
所属栏目:[大数据] 日期:2020-12-27 热度:84
1. 漏斗分析模型 漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。 运营人员可以通过观察不同属性的用户群体(如新注册用户与老客户、不同渠道来源的客户)各环节转化率,各流程步骤转化率的[详细]
-
大数据领域常用技术栈
所属栏目:[大数据] 日期:2020-12-27 热度:190
提起大数据,不得不提由IBM提出的关于大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),而对于大数据领域的从业人员的日常工作也与这5V密切相关。大数据技术在过去的几十年中取得非常迅速的发[详细]
-
Databricks说的Lakehouse是什么?
所属栏目:[大数据] 日期:2020-12-27 热度:142
? 在过去的几年里,Lakehouse作为一种新的数据管理范式,已独立出现在Databricks的许多用户和应用案例中。在这篇文章中,我们将阐述这种新范式以及它相对于之前方案的优势。 数据仓库在决策支持和商业智能应用方面有着悠久的历史。自20世纪80年代末问世以来[详细]
-
《Speed-BI云平台-基于Excel数据源的技巧应用:区域销售收入分析
所属栏目:[大数据] 日期:2020-12-26 热度:72
对于刚接触speed-BI的朋友们,一些看似很简单很琐碎的动作,当没有小窍门和智能化的操作就会使得工作量变大,时间耗起来真要命。本次课就将围绕speed-BI常用的功能进行串讲,还有特别的小技巧一并教授,成为speed-BI的技巧王! ? 课程应用: 本次课程以销售[详细]