首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

干货 银行大数据开发平台架构经验及未来人工智能应用

银行大数据开发平台架构经验及未来人工智能应用

考量点

1、金融企业大数据平台架构设计的关键点有哪些?

架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案。作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技术组件,如果科技力量更强可以考虑参与开源社区对组件的优化完善等工作中。

2、针对结构化、半结构化和非结构化的数据,在设计大数据平台中分别有哪些要点?

大数据平台最好存储与计算相关的数据,非结构化数据如果不能利用分布式计算能力就不建议在hadoop这类平台上存储,可以考虑其他的分布式存储方案。结构化和半结构化差别不多,考虑具体应用场景和数据使用模式来制定方案。

3、大数据平台如何对大规模流数据加工封装,以及实现内容分发?

流计算框架主流的是SparkStreaming/Storm两种,其他的还有Heron/Flink等等。流数据加工通常涉及到数据的分发订阅,Kafak是目前比较流行的分布式消息系统。

4、大数据平台可以做到对客联机的联机高可用查询要求吗?

基于HBase可以满足联机交易的查询请求,Impala也可以满足一定程度上的联机查询对接BI报表工具。不过还要看具体场景的要求详细分析。

5、应该怎么规划数据库架构?多大的数据量用什么样的架构,有没有一个比较好的规划策略。

1、小规模的使用,可以分散建设应用集群,灵活度高。

2、没有发展自身技术团队打算的,可以找靠谱的集成商。

3、有长远打算的,建议做平台的整体规划。

数据量的问题,通常超过TB级别可以考虑大数据技术或其他MPP,低于这个数量级RDB完全可以搞定。

6、大数据平台元数据管理问题有哪些考量点?

元数据管理还不是开源社区的重点发展方向,在一些商业版中有部分功能支持,如果想要一个更完善的方案还需要基于自身情况来定制。

很多企业只关注大数据,对元数据的管理方面很不到位,同样指标几十个不同名称,带来数据质量问题跟沟通问题。简单的管理可以基于业务,纬度方面给表字段命名,

7、非结构化数据,如语音,视频 在大数据环境下怎样才能合理存放,以利于数据的调取使用?

语音与视频数据的问题,要结合该类数据的使用方式来判断。具备计算能力的存储其成本要更高,如果仅仅为了存储可以先考虑其他分布式存储方案如CEPH等。

语音和视频涉及到语音识别和计算机视觉等技术领域,如语音识别文字等处理目前尚未了解到其是否能够基于Hadoop等并行处理框架实现,如果存在类似方案则可以考虑在Hadoop上集中存储。

8、如果没有从来源上保障数据质量,后续的利用和挖掘也就步履维艰,有哪些保障大数据的数据质量的方法?

实践中,数据质量始终是一个不容易解决的问题,这是因为良好的数据质量必然依赖于一个技术与管理相互结合的方案,要在企业范围内有统一的制度和充分落地的执行。大数据技术被没有提供更好的解决方案,因为开源社区似乎没有将其作为重点的关注方向,甚至在配套的元数据管理等方面还稍逊于传统的商业产品。目前阶段,大数据应用还处于一个离散化的状态,完全现面向应用建设,没有像传统EDW那样形成完整的企业数据模型体系。毕竟大数据的应用模式还在不断探索的阶段,谈论这类强约束的模型还为时过早,个人认为这种状态估计还会持续相当长的一段时间。此外大量外部数据的引入,也对传统的基于封闭体系、强调源头管理的数据质量管理理论提出了挑战,降低噪音提取有价值的信息,会成为大数据应用的一个常态,不再是辅助流程,要在系统设计过程中予以考虑。最后,如何控制数据质量,还要平衡其成本和收益。

(来自:talkwithtrend,文章略有删减)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181229B0Y5DU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券