时间:2025-11-12 09:13:30 来源:网络整理编辑:百科
从 ClickHouse 到 Apache Doris:在网易云音乐日增万亿日志数据场景下的落地 易云音乐替换了 ClickHouse『——点击进入——」审计日志,云会议『——点击进入——」AI中台,弹性搜索,对象存储-本尊科技作者|网易数据开发专家 赵荣生日志数据已成为企业洞察系统状态、监控网络安全及分析业务动态的宝贵资源。网易云音乐引入 Apache Doris 作为日志库新方案,替换了 ClickHouse。目前已经稳
作者|网易数据开发专家 赵荣生日志数据已成为企业洞察系统状态 、从C场景监控网络安全及分析业务动态的网万亿宝贵资源 。网易云音乐引入 Apache Doris 作为日志库新方案,易云音乐替换了 ClickHouse 。日增日志目前已经稳定运行 3 个季度 ,数据规模达到 50 台服务器 ,落地最终一致2PB 数据,从C场景每天新增日志量超过万亿条,网万亿峰值写入吞吐 6GB/s 。易云音乐
网易云音乐每天都会产生大量用户行为数据 、日增日志业务数据及日志数据,数据这些数据在异常行为跟踪 、落地客诉问题定位 、从C场景运行状态监控 、网万亿性能优化等方面扮演守护者的易云音乐角色。面对每日万亿级别数据的增量,网易云音乐早期的日志库以 ClickHouse 为核心构建,但面临运维成本高、并发查询能力不足、写入性能不稳定 、使用费用高昂等问题 ,在新需求的满足上稍显吃力。

为寻找更优质解决方案,结合当前的业务需求,网易云音乐引入 Apache Doris 作为日志库新方案 ,替换了 ClickHouse。目前已经稳定运行 3 个季度,规模达到 50 台服务器,2PB 数据,每天新增日志量超过万亿条,峰值写入吞吐达 6GB/s 。本文将介绍从 ClickHouse 到 Apache Doris 的迁移思考及调优实践 ,并分享网易云音乐如何在运维效率、并发能力、查询响应以及存储性能上实现全方位提升。
早期架构及挑战
云音乐数据平台主要包括客户端日志 、服务端日志、数据平台相关组件运行日志这几类:
客户端 / 服务端日志 :客户端 / 服务端产生的日志是数据体系的核心基础数据之一 ,日增数据达万亿级别,存储占用数百 TB。几乎所有业务场景均由该类数据构建 。水产养殖
数据平台相关组件运行日志 :任务及相关组件日志是数据平台内部的核心数据之一,每天约 1TB 的数据规模。这些日志能够及时反映数据平台的运行状态 、性能指标 、异常情况等,是实现平台智能化运维的核心资产 。
对于上述日志数据的处理 ,早期以 ClickHouse 为核心构建了日志库 、并设计了如下两条数据处理链路 。这些数据通过日志采集、本尊科技清洗、加工后写入日志库中,由日志库进行明细和聚合查询 ,为异常用户行为、社区热点监控、任务异常分析、任务预警 、大盘监控业务场景提供服务 。
客户端 / 服务端日志处理链路
数据平台相关组件运行日志处理链路
上述两类日志数据,均要求在实时任务加工处理后写入到日志库,这对日志库的稳定性 、可用性、性能 、容错等能力都提出了较高要求 。而之前日志库以 ClickHouse 为核心构建 ,在使用中暴露出一些痛点问题,在性能及稳定性的满足上稍显吃力:
运维成本高:早期为两条处理链路,同时也带来了双倍维护成本,此外 ,早期链路在面对坏盘、宕机、扩容等场景时 ,需要手动进行数据均衡和数据恢复,有些场景甚至需要在写入任务时配合重启操作。
使用门槛高