Cisco在大数据领域有哪些创新应用与实践?
- 行业动态
- 2025-01-16
- 3725
Cisco大数据
背景介绍
思科(Cisco)作为全球领先的网络设备供应商,长期以来一直在数据通信领域占据重要地位,随着互联网和物联网的快速发展,数据量急剧增加,这对数据处理和分析提出了新的挑战,为了应对这些挑战并保持市场竞争力,Cisco积极拥抱大数据技术,通过采用先进的大数据解决方案,Cisco能够更高效地处理海量数据,提升业务决策的准确性和及时性,大数据技术还帮助Cisco在网络安全、智能分析以及客户服务等方面取得了显著进展,大数据已成为推动Cisco创新和发展的重要力量。
表格:Cisco大数据平台组件概览
组件 | 描述 | 功能 |
Apache Kafka | 分布式流处理平台 | 数据抽取、传输 |
UDP (调度系统) | 统一数据平台,调度ETL/Spark/Flink等任务 | 数据处理、任务调度 |
Apache Doris | 基于MPP架构的SQL引擎 | 实时数据分析、报表生成 |
Trino | 多查询引擎 | 多数据源查询 |
Pinot | 实时OLAP分析引擎 | 实时分析 |
Iceberg | 数据湖格式 | 数据存储、更新 |
Kyuubi | SQL on Hadoop引擎 | SQL查询支持 |
Multi-Catalog | Doris的数据虚拟化层 | 多数据源联邦分析 |
一、Cisco WebEx数据平台的演变与优化
1 早期架构与面临的挑战
Cisco WebEx作为全球领先的远程会议平台,其数据平台最初采用了多系统架构,包括Trino、Pinot、Iceberg和Kyuubi等技术栈,这种复杂的架构带来了多重挑战:
架构复杂:多个组件之间的依赖关系错综复杂,增加了系统维护的难度。
数据冗余:不同系统间的数据冗余存储,导致资源浪费。
运维困难:多种技术栈的使用使得运维工作繁琐且易出错。
资源利用率低:由于数据冗余和系统复杂性,资源的使用效率低下。
数据时效性差:数据处理链路较长,影响了数据的实时性和新鲜度。
2 向Apache Doris的迁移
为了解决上述问题,Cisco决定引入Apache Doris来统一其数据平台架构,Apache Doris是一款现代化的MPP数据库,具备以下关键特性:
高性能:支持快速的大规模数据集分析。
实时写入:能够直接从Kafka等数据源进行数据订阅和导入。
简单易用:提供统一的查询引擎,减少对多种技术栈的依赖。
成本效益:通过简化架构,提高了资源利用率,降低了成本。
良好的扩展性:支持Multi-Catalog,可以轻松集成多种数据源。
3 架构改造的具体实践
Cisco将原有的多系统架构替换为基于Apache Doris的统一架构,具体措施包括:
替换技术栈:使用Doris替代了原有的Trino、Pinot、Iceberg和Kyuubi等组件。
简化数据处理流程:通过Doris Routine Load功能,直接从Kafka中订阅数据,简化了ETL流程。
统一数据湖仓:利用Doris的Multi-Catalog能力,实现了多个异构数据源的统一联邦分析。
提升查询性能:借助Doris的列式存储和高性能查询引擎,显著提升了数据分析的效率。
降低运维成本:架构简化后,系统的可维护性和稳定性得到了大幅提升。
4 业务效果与收益
通过引入Apache Doris,Cisco WebEx数据平台取得了显著的业务效果:
报表生成耗时缩短50%:CCA Peak Ports项目的报表更新周期从T+2缩短至T+1,生成时间由10分钟缩短至5分钟。
数据处理链路简化:整个Data Pipeline变得更加清晰、简单和高效。
资源成本降低30%:通过资源整合和利用率提升,大幅降低了运营成本。
用户体验改善:更快的数据响应速度和更高的系统稳定性,提升了用户满意度。
二、Cisco大数据团队在OLAP平台建设中的经验
1 OLAP平台的需求与挑战
Cisco的OLAP(Online Analytical Processing)平台主要用于支持客户业务报表系统的搭建,满足大规模数据的聚合查询需求,主要挑战包括:
海量数据处理:单张表单月的数据量可达亿级,需要处理十亿到二十亿条数据。
高并发请求:短时间内可能有大量用户同时查询报表,要求系统具备高并发处理能力。
快速响应:即使在高并发情况下,也需要保证查询结果能够在极短时间内返回。
系统稳定性:作为客户重要的计费账单参考,系统必须稳定可靠。
2.2 选择Apache Kylin的理由
经过调研,Cisco大数据团队选择了Apache Kylin作为OLAP引擎,主要因为其基于预计算思想的海量数据分布式预处理引擎,具有以下优势:
亚秒级查询:针对超大数据集的聚合查询,Kylin能在1秒内反馈结果。
可扩展性强:支持水平扩展,能够处理PB级别的数据。
与现有生态系统集成良好:易于与Hadoop、HBase等组件集成。
3 初步测试与性能瓶颈定位
在实际部署过程中,Cisco团队进行了详细的性能测试:
测试策略:使用Apache JMeter和Gatling等工具模拟不同量级的用户请求,观察60秒内的平均响应时间、最大响应时间和成功率。
发现瓶颈:当并发数达到75时,Kylin的查询响应数达到峰值90,进一步提高并发数后,响应数不再增加,通过火焰图和JProfile分析,发现Kylin Query模块存在线程阻塞问题。
问题定位:通过jstack抓取线程快照,发现一个线程锁在sun.misc.URLClassPath.getNextLoader处,导致并发查询性能受限。
4 解决方案与优化措施
针对发现的问题,Cisco团队采取了以下优化措施:
代码优化:修改Kylin源码中的KylinConfig.buildSiteOrderedProps方法,避免线程阻塞。
配置调整:调优JVM参数,增加内存分配,提高垃圾回收效率。
架构调整:引入负载均衡器,分散查询请求压力;增加Kylin query node数量,提高并发处理能力。
持续监控:建立完善的监控系统,实时监测Kylin集群的健康状态和性能指标。
5 优化后的效果
通过一系列优化措施,Cisco成功提升了Kylin的并发查询性能,满足了业务需求:
并发查询能力提升:单个节点每秒查询响应数从90提升至300以上。
系统稳定性增强:优化后的系统在高并发场景下依然保持稳定运行。
用户体验改善:报表生成时间进一步缩短,客户满意度得到提升。
三、Cisco大数据平台的未来展望与发展方向
1 技术创新与持续优化
随着大数据技术的不断发展,Cisco将继续探索新技术的应用,以进一步提升数据处理和分析的能力:
引入AI与机器学习:结合AI算法,实现智能化的数据分析和预测,为客户提供更加精准的业务洞察。
深化云原生技术应用:全面拥抱Kubernetes等云原生技术,提高系统的弹性和可扩展性。
加强数据治理:完善数据血缘、数据质量和数据安全等方面的管理,确保数据的准确性和可靠性。
2 拓展应用场景
Cisco大数据平台将在更多业务场景中发挥作用,不仅限于现有的报表系统:
物联网数据分析:随着物联网设备的普及,Cisco将利用大数据平台处理海量的IoT数据,支持智能家居、智能制造等领域的应用。
网络安全态势感知:通过对网络流量和日志数据的实时分析,提升网络安全威胁的检测和响应能力。
客户行为分析:深入挖掘用户行为数据,为客户提供个性化的服务和产品推荐。
3 生态系统建设
Cisco将进一步加强与开源社区的合作,积极参与大数据相关项目的贡献,共同推动技术进步:
贡献开源项目:继续为Apache Doris、Kylin等开源项目贡献力量,分享Cisco在大数据领域的实践经验。
构建合作伙伴生态:与更多的行业伙伴合作,共同打造丰富的大数据解决方案,满足不同客户的需求。
培养专业人才:加大对大数据人才的培养力度,建立完善的培训体系,吸引更多优秀人才加入Cisco。
Cisco大数据团队将继续致力于技术创新和实践,不断提升数据处理和分析的能力,为客户创造更大的价值,并在激烈的市场竞争中保持领先地位。
常见问题解答(FAQs)
问题1:为什么Cisco选择Apache Doris作为统一的数据平台?
答:Cisco选择Apache Doris作为统一的数据平台主要有以下几个原因:
1、高性能:Doris基于MPP架构,支持快速的大规模数据集分析,能够满足WebEx平台对高性能查询的需求。
2、实时写入:Doris支持直接从Kafka等数据源进行数据订阅和导入,避免了复杂的ETL过程,提高了数据的实时性。
3、简单易用:Doris提供了统一的查询引擎,减少了对多种技术栈的依赖,降低了系统的复杂性和运维难度。
4、成本效益:通过简化架构和提高资源利用率,Doris帮助Cisco降低了30%的资源成本。
5、良好的扩展性:Doris支持Multi-Catalog,可以轻松集成多种数据源,适应未来业务扩展的需求。
问题2:Cisco在优化Kylin并发查询性能方面采取了哪些措施?
答:Cisco在优化Kylin并发查询性能方面采取了以下措施:
1、代码优化:修改Kylin源码中的KylinConfig.buildSiteOrderedProps方法,避免线程阻塞,提升并发处理能力。
2、配置调整:调优JVM参数,增加内存分配,提高垃圾回收效率,从而提升系统的稳定性和响应速度。
3、架构调整:引入负载均衡器,分散查询请求压力;增加Kylin query node数量,提高系统的并发处理能力。
4、持续监控:建立完善的监控系统,实时监测Kylin集群的健康状态和性能指标,及时发现并解决问题。
5、综合测试:使用多种压力测试工具(如Apache JMeter和Gatling)进行详细的性能测试,确保优化措施的有效性。
通过这些优化措施,Cisco成功提升了Kylin的并发查询性能,满足了高并发场景下的业务需求。
小伙伴们,上文介绍了“cisco大数据”的内容,你了解清楚吗?希望对你有所帮助,任何问题可以给我留言,让我们下期再见吧。
本站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本站,有问题联系侵删!
本文链接:http://www.xixizhuji.com/fuzhu/394561.html