生产EMR集群高可用升级

1、背景 在业务发展初期,数据量较少,统计需求也较少。基于成本考虑,EMR集群规模为1个master主节点+3个核心节点。 主节点负责管理集群,它通过运行软件组件来协调在其它节点之间分配数据和任务的过程以便进行处理。主节点跟踪任务的状态并监控集群的运行状况。 核心节点具有运行任务 »

生产HDFS进入安全模式故障处理

1、问题现象 hdfs 其中一个datanode宕机后,在此datanode上的block损坏,导致hdfs进入安全模式。 在hdfs的首页可以当前safe mode是on开启的状态。表明当前HDFS已经进入安全模式。 2、什么是安全模式 Hdfs 的安全模式,即 HDFS s »

微鲤实时数仓建设方案及整体规划

一、实时数仓建设背景 1. 实时需求日趋迫切 目前公司的产品需求和内部决策对于数据实时性的要求越来越迫切,需要实时数仓的能力来赋能。传统离线数仓的数据时效性是 T+1,调度频率以天为单位,无法支撑实时场景的数据需求。即使能将调度频率设置成小时,也只能解决部分时效性要求不高 »

Flink优化--RocksDB状态及Checkpoint调优

一、背景 企业生产环境中,会出现大量依赖中间状态的实时任务,目前flink的状态存储有Memory、FileSystem 和 RocksDB 三种可选,且 RocksDB 是状态数据量较大(GB 到 TB 级别)时的唯一选择。RocksDB 的性能发挥非常仰赖调优,如果全部采 »

微鲤大数据集群FLINK版本升级踩坑总结

1、背景 微鲤大数据Flink集群依托于华为云于2020年建设,Flink版本为1.10.0。Flink集群主要负责埋点日志实时处理、业务指标实时计算、实时ETL、智能推荐、广告竞价等工作。现有Flink Job 超百个,slot 1800+,日均处理数据超十亿,日均200GB左 »

浅析HDFS基本原理

随着互联网的发展,数据日益增多,增长超过了单机能够处理的上线,数据如何存储和处理成为了科技公司的难题,随着google的三篇论文的发布,大家终于找到了一个方案-分布式文件系统+MapReduce。Hadoop是参考google论文实现的,集成了分布式文件系统与分布式批处理平台。h »

大数据环境数据仓库&维度建模

来自公司内部的技术分享,是数仓的入门知识。 目录 数据仓库基本概念 维度建模 缓慢变化维度 拉链表 数据分层 1.1 数据仓库基本概念 1.2 维度建模 1.3 缓慢变化维度 1.4 拉链表 1.5 数据分层 作者介绍 郭彦磊,微鲤高级大数据开发工程师。作为主要研发人员 »

中华万年历大数据平台演进

单节点的统计系统 2014年之前,中华万年历统计的主要内容是广告,那时候统计方案是客户端采集到曝光、点击等数据,在客户端进行轻度汇总之后,提交到服务器,服务器通过redis做队列,采用Bitmap和Bitset的数据结构进行去重统计,然后快照到MySQL中,延时5分钟左右。这个阶 »