• 相关博文
  • 最新资讯
加载中...
  • 300多局点,数据接入量超过2TB/S,华为用AI优化数据中台 | BDTC 2019

    数据中台承载着华为的运营商大数据分析业务,在全球建有300多个局点,单局点最大1000+服务器,数据接入量超过2TB/S。数据中台应用spark支持批计算任务,使用yarn做spark的资源管理器。yarn虽然提供了配置参数接口,但是各局点的应用数据对容器的规格、数量有不同的需求,依赖专家配置费时、费力,且不一定最优。因此,提出应用强化学习算法,针对不同业务,学习、尝试,并最终选择spark运行时的最佳参数。该方法不仅可以用作spark运行时的最佳参数选择,对于其它需要配置运行时参数的系统仍然适用。

    2020.01.07 0
  • XGBoost缺失值引发的问题及其深度分析 | CSDN博文精选

    XGBoost模型作为机器学习中的一大“杀器”,被广泛应用于数据科学竞赛和工业领域,XGBoost官方也提供了可运行于各种平台和环境的对应代码,如适用于Spark分布式训练的XGBoost on Spark。然而,在XGBoost on Spark的官方实现中,却存在一个因XGBoost缺失值和Spark稀疏表示机制而带来的不稳定问题。

    2019.12.25 0
  • 手把手教你实现PySpark机器学习项目——回归算法

    PySpark作为工业界常用于处理大数据以及分布式计算的工具,特别是在算法建模时起到了非常大的作用。PySpark如何建模呢?这篇文章手把手带你入门PySpark,提前感受工业界的建模过程!

    2019.11.15 0
  • 开源sk-dist,超参数调优仅需3.4秒,sk-learn训练速度提升100倍

    这篇文章为大家介绍了一个开源项目——sk-dist。在一台没有并行化的单机上进行超参数调优,需要 7.2 分钟,而在一百多个核心的 Spark 群集上用它进行超参数调优,只需要 3.4 秒,把训练 sk-learn 的速度提升了 100 倍。

    2019.09.09 0
  • 如何应对大数据分析工程师面试Spark考察,看这一篇就够了

    本篇文章为大家带来spark面试指南,文内会有两种题型,问答题和代码题,题目大部分来自于网络上,有小部分是来自于工作中的总结,每个题目会给出一个参考答案。

    2019.09.03 0
  • 异类框架BigDL,TensorFlow的潜在杀器!

    你能利用现有的Spark集群构建深度学习模型吗?如何分析存储在 HDFS、Hive 和 HBase 中 tb 级的数据吗?企业想用深度学习模型,可是要考虑的问题又很多,怎么破?这篇文章中,我们将给大家讲讲大数据+深度学习下,BigDL框架的利弊与应用教程,为什么有了TF、PyTorch,还是会考虑用BigDL?

  • Apache Kylin v2.5.0正式发布,开源分布式分析引擎

    Kylin 的 Spark 引擎将使用 Spark 运行 Cube 计算中的所有分布式作业,包括获取各个维度的不同值,将 Cuboid 文件转换为 HBase HFile,合并 Segment,合并词典等。默认的 Spark 配置也经过优化,使得用户可以获得开箱即用的体验,相关开发任务是 KYLIN-3427, KYLIN-3441, KYLIN-3442。

    2019.03.07 0