大数据平台架构设计的5个关键点

2025-04-22 08:44:40

1、针对结构化、半结构化和非结构化的数据进行大数据架构时,大数据平台最好存储与计算相关的数据,非结构化数据如果不能利用分布式计算能力就不建议在hadoop这类平台上存储,可以考虑其他的分布式存储方案。结构化和半结构化差别不多,考虑具体应用场景和数据使用模式来制定方案。

2、大数据架构根据不同的战略目标,使用不同的方式,小规模的使用,可以分散建设应用集群,灵活度高。没有发展自身技术团队打算的,可以找靠谱的集成商。有长远打算的,建议做平台的整体规划。通常超过TB级别可以考虑大数据技术或其他MPP,低于这个数量级RDB完全可以搞定。

3、在存放非结构化数据,如语音,视频时,大数据架构要结合该类数据的使用方式来判断。具备计算能力的存储其成本要更高,如果仅仅为了存储可以先考虑其他分布式存储方案如CEPH等。语音和视频涉及到语音识别和计算机视觉等技术领域,如语音识别文字等处理目前尚未了解到其是否能够基于Hadoop等并行处理框架实现,如果存在类似方案则可以考虑在Hadoop上集中存储。

4、最后,大数据依赖于数据的质量和数量,如果没有足够质量的较大数量的数据保证,使用大数据的战略目标也无法实现,故而在进行大数据蕈瀵邻松架构时,必须要设计一个技术与管理相互结合的方法,要在企业范围内有统一的制度保证充分的执行,当然,目前阶段,大数据应用还处于一个离散化的状态,大量外部数据的引入,也对传统的基于封闭体系、强调源头管理的数据质量管理理论提出了挑战,降低噪音提取有价值的信息,会成为大数据应用的一个常态,不再是辅助流程,要在系统设计过程中予以考虑。最后,如何控制数据质量,还要平衡其成本和收益。

声明:本网站引用、摘录或转载内容仅供网站访问者交流或参考,不代表本站立场,如存在版权或非法内容,请联系站长删除,联系邮箱:site.kefu@qq.com。
猜你喜欢