大数据分析是指对规模巨大的数据进行分析。大数据可以概括为5个V, 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)
。
前端展现
用于展现分析的前端
开源工具
有JasperSoft,
Pentaho
, Spagobi, Openi, Birt等等。
国内的有
BDP
,国云数据(大数据魔镜),思迈特,FineBI等等。
数据仓库
有
Teradata
AsterData, EMC GreenPlum, HP Vertica 等等。
大数据分析的六个基本方面
1. Analytic Visualizations(
可视化分析
)
不管是对数据分析专家还是普通用户,
数据可视化
是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。
2. Data Mining Algorithms(
数据挖掘算法
)
可视化是给人看的,
数据挖掘
就是给机器看的。集群、分割、
孤立点
分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。
3. Predictive Analytic Capabilities(
预测性分析
能力)
数据挖掘可以让
分析员
更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。
4. Semantic Engines(语义引擎)
我们知道由于
非结构化数据
的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。
5. Data Quality and Master Data Management(
数据质量
和数据管理)
数据质量和数据管理是一些管理方面的
最佳实践
。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的
分析结果
。
假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。
数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的
关系型数据库
。在商业
智能系统
的设计中,数据仓库的构建是关键,是商业智能系统的基础,承担对
业务系统
数据整合
的任务,为商业智能系统提供
数据抽取
、转换和加载(
ETL
),并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。
1.
积极主动
&预测需求: 企业机构面临着越来越大的竞争压力,它们不仅需要获取客户,还要了解客户的需求,以便提升
客户体验
,并发展长久的关系。客户通过分享数据,降低数据使用的隐私级别,期望企业能够了解他们,形成相应的互动,并在所有的接触点提供无缝体验。
为此,企业需要识别客户的多个
标识符
(例如手机、
电子邮件
和地址),并将其整合为一个单独的客户ID。由于客户越来越多地使用多个渠道与企业互动,为此需要整合传统数据源和数字数据源来理解客户的行为。此外,企业也需要提供情境相关的实时体验,这也是客户的期望。
2. 缓冲风险&减少欺诈: 安全和欺诈分析旨在保护所有物理、财务和
知识资产
免受内部和
外部威胁
的滥用。高效的数据和
分析能力
将确保最佳的欺诈预防水平,提升整个企业机构的安全:威慑需要建立有效的机制,以便企业快速检测并预测欺诈活动,同时识别和跟踪肇事者。
将统计、网络、路径和大数据方法论用于带来警报的预测性欺诈倾向模型,将确保在被实时威胁检测流程触发后能够及时做出响应,并自动发出警报和做出相应的处理。数据管理以及高效和透明的欺诈事件报告机制将有助于改进欺诈风险
管理流程
。
此外,对整个企业的数据进行集成和关联可以提供统一的跨不同
业务线
、产品和交易的欺诈视图。多类型分析和数据基础可以提供更准确的欺诈趋势
分析和预测
,并预测未来的潜在操作方式,确定欺诈审计和调查中的漏洞。
通过对个人公布的想法和观点的第三方数据源进行有效整理,再进行相应分析,可以帮助企业在需求发生变化或开发新技术的时候保持竞争力,并能够加快对
市场需求
的预测,在
需求产生
之前提供相应产品。
4. 个性化&服务: 公司在处理
结构化数据
方面仍然有些吃力,并需要快速应对通过
数字技术
进行客户交互所带来的不稳定性。要做出实时回应,并让客户感觉受到重视,只能通过先进的分析技术实现。大数据带来了基于客户个性进行互动的机会。这是通过理解客户的态度,并考虑实时位置等因素,从而在多渠道的
服务环境
中带来个性化关注实现的。
5. 优化&改善客户体验
运营管理
不善可能会导致无数重大的问题,这包括面临损害客户体验,最终降低
品牌忠诚度
的
重大风险
。通过在流程设计和控制,以及在商品或服务生产中的业务运营优化中应用分析技术,可以提升满足
客户期望
的
有效性
和效率,并实现卓越的运营。
通过部署先进的分析技术,可以提高现场运营活动的生产力和效率,并能够根据业务和
客户需求
优化组织人力安排。数据和分析的最佳化使用可以带来
端对端
的视图,并能够对关键运营指标进行衡量,从而确保持续不断的改进。
例如,对于许多企业来说,库存是当前资产类别中最大的一个项目——库存过多或不足都会直接影响公司的
直接成本
和
盈利能力
。通过数据和分析,能够以最低的成本确保不间断的生产、销售和/或客户
服务水平
,从而改善
库存管理
水平。数据和分析能够提供目前和计划中的
库存情况
的信息,以及有关库存高度、组成和位置的信息,并能够帮助确定存库战略,并做出相应决策。客户期待获得相关的无缝体验,并让企业得知他们的活动。
处理的过程被称之为提取、转移、加载或者称为
ETL
。首先将数据从源系统中提取处理,再将
数据标准化
处理且将数据发往相应的数据仓储等待进一步分析。在传统
数据库环境
中,这种ETL步骤相对直接,因为分析的对象往往是为人们熟知的金融报告、销售或者市场报表、
企业资源规划
等等。然而在大
数据环境
下,ETL可能会变得相对复杂,因此转型过程对于不同类型的
数据源
之间处理方式是不同的。
当分析开始的时候,数据首先从数据仓储
中会
被抽出来,被放进RDBMS里以产生需要的报告或者支撑相应的商业
智能应用
。在大数据分析的环节中,裸数据以及经转换了的数据
大都会
被保存下来,因为可能在后面还需要再次转换。