-
MapReduce运行原理
所属栏目:[教程] 日期:2018-11-18 热度:181
MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce采用分而治之的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是任务的分[详细]
-
没有数学和编程基础,这几个数据科学项目了解一下
所属栏目:[教程] 日期:2018-11-18 热度:184
大数据文摘出品 编译:蒋宝尚 今天,文摘菌给大家介绍几个比较有特色的数据科学模块,这些模块原本是一些教师用来进行教学使用,帮助学生有机会使用与其课程相关的数据集,并指导学生进行数据分析以及帮助理解统计和计算机原理。 一起来看~ 模块合集链接:[详细]
-
Apache Flink在唯品会的实践
所属栏目:[教程] 日期:2018-11-18 热度:107
唯品会实时平台现状 目前在唯品会实时平台并不是一个统一的计算框架,而是包括Storm,Spark,Flink在内的三个主要计算框架。由于历史原因,当前在Storm平台上的job数量是最多的,但是从去年开始,业务重心逐渐切换到Flink上面,所以今年在Flink上面的应用[详细]
-
AI落地无线网络运维四大难题待破解
所属栏目:[教程] 日期:2018-11-14 热度:116
随着无线通信网络的发展,未来网络在频段和组网上将更加复杂,再加上业务多样性和终端的多类型,无线通信系统的规模和复杂度将日益增长。 对于未来体系庞大的通信系统,无线网络运维将面临诸多挑战,例如虚拟化与网络演进增加运维复杂性,单个问题可能会触[详细]
-
如何选择大数据的编程语言
所属栏目:[教程] 日期:2018-11-14 热度:105
前言 有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做出:我该选择哪种语言?(或者可能更有针对性的问题是,我该迫使我的所有开发人员和数据科学家非[详细]
-
全网IPv6部署带来的现实问题
所属栏目:[教程] 日期:2018-11-10 热度:85
2018年以来,国内掀起了IPv6网络改造的热潮,从运营商到互联网,从企业到个人,都要将IPv6的网络改造付诸于行动,不少企业都立了军令状,必须要在2018年完成IPv6网络初步改造,让IPv6跑起来。 不过,IPv6的口号喊了这么多年,一直没有什么声响,大家都没有[详细]
-
路由器这些现象肯定困扰过你 围观了解一下
所属栏目:[教程] 日期:2018-11-10 热度:77
路由器那一排指示灯,是不是经常引起你的疑惑?为什么有的常亮,有的忽闪?到底WIFI是怎样工作的呢?今天来和大家分享一些路由器的小常识,相信你在生活中都会对这些地方画过问号。 第一点就是路由器上那些忽闪忽闪的指示灯,以双频无线路由器为例,一般会有7[详细]
-
晚上睡觉关不关无线路由器?别担心辐射
所属栏目:[教程] 日期:2018-11-10 热度:122
关于无线路由器的奇葩理论又出现了,小编最近在某公众号上看见一篇关于无线路由器辐射的文章。 让大家晚上关上无线路由器再睡觉,否则会有辐射影响健康。这种文章,转发和赞早早过了十万,给不少朋友都带来了误导。尤其是父母那一辈人,很容易受到影响,相[详细]
-
Ovum观点:5G先发优势存在风险 不要让初吻变成死亡之吻
所属栏目:[教程] 日期:2018-11-10 热度:193
你还记得你的初吻吗?先发优势支持者往往借此来阐述其论点。以此类比,先发优势理论支持者会告诉你,你会记得你的初吻,但却不会记得第二个、第三个甚至可能最后一个。结论是,如果你想要永远被铭记的话,就必须成为第一个。因此,以此类推,运营商需要率先[详细]
-
为什么说大数据会从ABC里最先掉队
所属栏目:[教程] 日期:2018-11-10 热度:133
人工智能(AI),大数据(big data)和云计算(cloud computing)三大技术被认为是当今互联网争夺的关键点。而三大技术中中争议最多的在于大数据技术,被夸大的效果和局限性的应用,很可能会让大数据成为ABC三大技术中最先掉队的一个。 01 ABC的格局 2010年,工[详细]
-
最受欢迎的5种数据科学工具
所属栏目:[教程] 日期:2018-11-10 热度:130
数据和分析为数字化转型提供了燃料,而企业充分发挥这些燃料的唯一途径是,为其统计学家、数据专家和企业分析专家提供正确的数据科学工具,从而为企业提供宝贵的洞察力。 无论是用于直接统计分析、机器学习建模还是可视化,数据科学工具对于建设数据驱动的[详细]
-
如何教你4步找到网络故障点
所属栏目:[教程] 日期:2018-11-10 热度:164
很多的朋友经常问到电脑上不了网,怎么判断哪里出问题了吗?这个在实际弱电项目中经常会遇到,做弱电需要掌握电脑知识还是挺多的。 那么在这里我们就一起来了解一下如何判断网络故障出现在哪里。需要用到ping命令,Ping命令其实是一个非常好的网络故障诊断[详细]
-
浅析如何设计一个亿级网关
所属栏目:[教程] 日期:2018-11-10 热度:93
1.背景 1.1 什么是API网关 API网关可以看做系统与外界联通的入口,我们可以在网关进行处理一些非业务逻辑的逻辑,比如权限验证,监控,缓存,请求路由等等。 1.2 为什么需要API网关 RPC协议转成HTTP。 由于在内部开发中我们都是以RPC协议(thrift or dubbo)[详细]
-
一文读懂5G基站和4G基站如何协同工作?
所属栏目:[教程] 日期:2018-11-05 热度:58
前两天,有网友留言问5G基站和4G基站如何协同工作,今天我们就来探讨探讨这个问题 5G和4G基站如何搞基? 众所周知,3GPP最新发布的5G NSA标准采用LTE与5G NR新空口双连接(LTE-NR DC)的方式,以4G作为控制面的锚点,4G基站(eNB)为主站,5G基站(gNB)为从站,[详细]
-
二、三层交换机与路由器的区别
所属栏目:[教程] 日期:2018-11-05 热度:109
网线最大传输距离 计算机网络往往由许多种不同类型的网络互连连接而成。如果几个计算机网络只是在物理上连接在一起,它们之间并不能进行通信,那么这种互连并没有什么实 际意义。因此通常在谈到互连时,就已经暗示这些相互连接的计算机是可以进行通信的,[详细]
-
组建网络规模的大小决定如何选取交换机
所属栏目:[教程] 日期:2018-11-05 热度:127
在这个创企不断冒出的环境里,越来越多的新区域需要构建网络环境,不论是大的园区还是小到办公室或是同一桌子上的几个电脑,这些都是需要网络设备的支持才能组成的。而交换机就是其中必不可少的设备,这次我们就来看看在不同网络规模下如何区分交换机的不[详细]
-
数据中心存储系统故障了?怎么办!
所属栏目:[教程] 日期:2018-11-05 热度:88
存储系统作为如今大数据云计算时代的根基,它的稳定才是支撑起如此海量数据的根本。所以各大相关行业对于这部分非常重视,所以在此针对存储系统的故障处置简单提出自己学习总结的一些思路。 首先在处理存储系统发生的可能故障前必须对于整个存储系统的架构[详细]
-
现在是时候彻底改变公司对待物联网的方式了
所属栏目:[教程] 日期:2018-11-05 热度:90
物联网( IoT )正在对企业进行数字化改革。在过去几年中,各行业的公司满怀希望地开始了物联网之旅,重点是改进和自动化现有流程解决悬而未决问题。 既然这些公司已经获得了流程、生产力和成本效益,现在是时候进入下一阶段了:利用物联网创造新的价值主张[详细]
-
Apache Flink 漫谈系列 - 流表对偶(duality)性
所属栏目:[教程] 日期:2018-11-05 热度:173
实际问题 很多大数据计算产品,都对用户提供了SQL API,比如Hive, Spark, Flink等,那么SQL作为传统关系数据库的查询语言,是应用在批查询场景的。Hive和Spark本质上都是Batch的计算模式(在《Apache Flink 漫谈系列 - 概述》我们介绍过Spark是Micro Batchi[详细]
-
未来互联网+大数据时代,DT革命互联网大数据应用简析
所属栏目:[教程] 日期:2018-11-05 热度:129
未来应该是移动互联网+大数据并存的时代,未来企业之间的竞争是数据的竞争。本文从互联网大数据发展现状、市场规模、需求分析、商业大数据价值、信息安全性、企业发展形态等方面简要分析在DT时代下互联网大数据应用。 大数据已经渗透到当今每个行业和业务[详细]
-
数据科学家应当了解的五个统计基本概念
所属栏目:[教程] 日期:2018-11-05 热度:128
本文讲述了数据科学家应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计。 从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们[详细]
-
TCP协议疑难杂症全景解析
所属栏目:[教程] 日期:2018-11-05 热度:73
说明: 1).本文以TCP的发展历程解析容易引起混淆,误会的方方面面 2).本文不会贴大量的源码,大多数是以文字形式描述,我相信文字看起来是要比代码更轻松的 3).针对对象:对TCP已经有了全面了解的人。因为本文不会解析TCP头里面的每一个字段或者3次握手的[详细]
-
聆听中国开源最强音 | 国内大厂开源项目齐聚 OSCAR 开源先锋日
所属栏目:[教程] 日期:2018-10-27 热度:172
聆听中国开源最强音,阿里、华为、腾讯、小米齐聚北京,万众期待的 OSCAR 开源先锋日终于到来啦! OSCAR 开源先锋日旨在为本土开源企业与开源软件提供分享与交流的平台,促进国产开源软件的繁荣发展。该活动由中国信息通信研究院主办,云计算标准与开源推进[详细]
-
九个经典有趣的数据挖掘案例
所属栏目:[教程] 日期:2018-10-27 热度:131
1、啤酒和尿布 全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。 没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,啤酒+尿布[详细]
-
用Python分析北京二手房房价
所属栏目:[教程] 日期:2018-10-27 热度:109
数据初探 首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn,以及机器学习包sklearn。 importpandasaspd importnumpyasnp importseabornassns importmatplotlibasmpl importmatplotlib.pyplotasplt fromIPython.displayimportdisplay plt.[详细]