基于Spark MLlib的证券账户行为模式分析-上交所黄寅飞 本文基于Spark MLlib软件库,对证券账户特征进行K均值和高斯混合模型聚类,并对投影空间进行三维展示。利用距离指标和熵指标,指导K值选择,观察聚类效果和训练时间间的... Spark 2018-03-05
Apache Spark内存管理详解 本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。... Spark 2017-04-11
Spark的RDD检查点实现分析 。Spark的RDD执行完成之后会保存检查点,便于当整个作业运行失败重新运行时候,从检查点恢复之前已经运行成功的RDD结果,这样就会大大减少重新计算的成本,提高任务恢复... Spark 学习 2016-09-13
《深入理解SPARK:核心思想与源码分析》一书正式出版上市 如果你是从事IT工作1~3年的新人或者希望开始学习Spark核心知识的人来说,本书非常适合你。如果你已经对Spark有所了解或者已经使用它,还想进一步提高自己,那么本书更... Spark 学习 2016-09-13
Spark在GrowingIO数据无埋点全量采集场景下的实践 大家好,我是来自GrowingIO的数据工程师付旗,今天跟大家分享的是我们GrowingIO在使用Spark中的经验,遇见的一些问题,以及我们修复的方法。在来之前,昨天晚上我在跟我们... spark growingIO 2016-07-26
重新编译spark1.0.0及编译中出现问题的解决 官方版本的spark1.0.0-hadoop2(hadoop2,cdh5),部署在hadoop2.0.0-cdh4.7.0版本上一直不成功,决定重新编译spark1.0.0,... Spark 学习 2016-05-04
Spark本地开发环境搭建过程 Spark本地开发环境搭建过程,需要ssh到Spark worker中执行命令,所以,需要免密码登录,配置你的Spark slave。... Spark 2016-01-26
奥维云网智慧家庭技术路线及其背后的大数据架构 巫新宇认为Storm比Spark Sreaming更快,但选择Spark及Spark Sreaming技术栈,是因为Scala,之前已经使用Play Framework实现非阻塞、大并发。... spark架构实践 大数据架构 2015-12-23
Apache Spark1.6预览版:更简便的搜索及诸多新特性 ApacheSpark在业内不断得到关注和应用,每一次的改变都牵动着从业者的心,这篇文章总结了ApacheSpark1.6预览版的一些新特性,并做了简短的介绍。... Spark 学习 2015-12-20
Spark入门教程(Python版) Spark使用函数式编程范式扩展了MapReduce模型以支持更多计算类型,Spark使用内存缓存来提升性能,因此进行交互式分析也足够快速(就如同使用Python解释器,与集群进行交... Spark入门 python 机器学习 2015-12-19
Databricks公司联合创始人、Spark首席架构师辛湜:Spark发展,回顾2015,展望2016 2015中国大数据技术大会12月10日在北京新云南皇冠假日酒店盛大开幕,Databricks公司联合创始人、Spark首席架构师辛湜带来主题为《Spark发展:回顾2015,展望2016》的演... spark架构实践 大数据架构 2015-12-10
Tachyon架构分析和现存问题讨论 目前Tachyon的功能基本可以看作就是:对外提供了一个以顺序文件流的方式,写本地内存,读本地和远程内存的接口,持久化特定文件,同时兼容HDFS API。... Tachyon 2015-12-06
Spark首席架构师辛湜:谈项目现状与Roadmap 作者日常主要负责Databricks公司和Spark未来技术发展的方向。在Databricks公司成立之前,我在UC Berkeley AMPLab攻读博士,方向专注在数据库和分布式系统。... spark架构实践 大数据架构 2015-11-27
IBM全力支持 spark或成未来最重要开源项目 IBM公司宣布将主要承担Apache Spark项目,充分展现了IBM公司对于Apache Spark的重要性充满信心。... spark 开源软件 2015-11-24
百度马如悦:用Scala编写Spark?Julia也行! 马如悦,百度大数据部主任架构师。大会召开前夕,笔者有幸采访到了马如悦,请他分享Palo在百度内部的应用实践。在他看来,不写代码的架构师都不是好的架构师,没有主导实际... Spark实践分享 2015-11-11
大规模主题模型:对Spark LDA算法的改进 为了关注分布式计算,该阅读哪些资讯文章呢?这些问题都能够被话题模型所解答。这篇文章将要讨论Spark1.4和1.5使用强大的隐含狄利克雷分布(LatentDirichletAllocation... Spark 教程 2015-11-02