大数据的生命(周期)

big.png

        联网设备所产生的数据量正呈几何倍数增长,全球互联网总流量数据从1997年每小时约100千兆字节剧增至2007年每小时12万千兆字节估算数据表明,今年包括移动数据在内的互联网总流量将超过每小时160万千兆字节。网络中产生并传输的数据的大幅增长,正是大数据热潮的背后支柱。许多人认为数据不仅可以改善企业的决策能力,而且还能使人工智能系统为人类优化决策。

        然而,开发解锁大数据的价值要求以更智能的方式对日益增长的数据进行收集、存储与分析,将数据转化为洞见,用以处理当下以及未来亟待解决的商业问题。在此类新型价值链不断演化的同时,企业必须了解所有环节之间的关系。

第一步:收集大数据

        个人电脑曾是收集和传输数据的主要工具,但是目前推动着大数据革命的设备愈发多样化了。这些设备设有内置传感器与联网能力,可以发送、接收数据并作出反应。

        可穿戴的健身设备、工业设备和家庭监控传感器等组成的“物联网”(IoT)与传统的手动式输入数据的企业数据库截然不同。现在企业也在大量投入资源进行调研,征求并记录消费者对产品或服务的反馈意见。

                                         

        联想研究与技术副总裁黄英博士指出,人类社会正经历着“从个人计算到普及计算的转型”。从可穿戴技术到智能家电,数据来源愈发多样化。现在物联网和智能设备可以追踪测量心率、每日步数、污染水平等日常生活中的基本信息。这些数据在设备后台自动生成,用户不一定记得在安装应用程序等情况下曾进行过授权,因此未必完全知情。

        以Netflix为例,可以观察企业的数据收集方式。Netflix是一家广受欢迎的美国娱乐流媒体公司,运营于190个国家(未进入中国大陆)。Netflix拥有逾1亿用户,每日电视电影播放时长达1.25亿小时。Netflix对点击、暂停、快进以及观影时段等个人用户信息进行收集,然后将这些数据与用户的年龄、性别和观影类型偏好等人口统计数据进行关联分析。Netflix所收集的用户数据使其能够为个人量身定制用户体验。Netflix的流媒体算法总监Nirmal Govind写道:“Netflix培养了一种实验文化,建立了数据驱动的决策流程,因此可以在生产环境中对新的想法进行验证,并从会员处收集数据和反馈意见。”

第二步:存储大数据

        企业以往通常将大数据集内部存储于连接内网的大型主机上;后来企业首选的存储方式是外部存储于第三方服务器。但数据生成量的迅猛增长也推动着云计算同步迅猛发展。位于硅谷的网络服务提供商、新晋的中国美国商会会员阿雅卡网络公司(Aryaka Networks)的市场部主管Reagen Li表示:“云转型已经完成,云时代已经到来。中国境内的国内外企业都在迅速采用大数据云存储解决方案,力求在商业信息上占得优势,但云存储接入与大数据给企业现有的IT基础设施带来了更多压力。”

        云解决方案成本相对较低且易于安装,移动办公人员可以按需灵活使用,几乎可以从所有联网设备上访问云,而且数据自动备份,安全性更强。OneDrive是微软的文件存储服务平台,用户可以在线存储、备份并共享文档、照片和视频。免费的基础套餐中包含5GB的存储空间,可用于所有设备。企业可以运用这一云存储解决方案,在微软Office在线文档中实现协作,同事编辑时可以实时接收通知信息。

        美国技术公司苹果近期宣布启动其在中国的第一家数据中心,将与一家中国数据管理公司合作,在贵州建设新的存储设施。苹果公司在一份声明中表示,“新增的数据中心将提高我们产品和服务的速度和可靠性,同时也符合新出台的规定。”这一数据中心是苹果在该地区10亿美元投资项目中的一部分,也符合中国《网络安全法》对本地化存储的要求和跨境数据传输的规定。

第3步:分析大数据

        业务价值不一定在于数据的收集和存储本身,而在于对数据所揭示信息的理解。企业能够通过大数据分析,更好地了解其产品、客户或内部流程。

        在大数据时代之前,决策者依靠调研、试验或轶事证据的数据进行决策。但由于人类天性固有的偏见,此类数据可靠性较低。相比之下,大数据的规模大,且在后台自动生成,因此样本量更大,动态性更强,描述也更具体。

        大数据涉及多个维度,要求进行高级计算分析。微软的商业智能工具Power BI和IBM的沃森分析(Watson Analytics)等软件在多变量数据间运行高级分析(回归分析和算法建模),帮助分析师找出数据集中的关联性与趋势。尽管机器学习和人工智能(AI)已能够自动根据大数据集创建并运行算法,但仍需依靠人类提供背景信息并总结发现成果,使信息真正可供消化使用。

                     

点击下载关于中国制定数据收集与存储监管法规(英文)的幻灯片,并根据您的演示需求进行更改。

        中国美国商会信息通信技术论坛(Information Communications and Technology Forum)联席主席Ding Wei博士指出,“大数据是人工智能的燃料,也能够为未来其他的创新自动化解决方案提供动力。”中国已然是一个巨型制造枢纽,因此,迅速抢占先机的企业可以从物流和供应链运营的大数据分析中获得重大优势。

第4步:运用大数据

        过去的实体零售商对进货情况进行追踪,使用以往收集的数据来预测未来需要的库存量。随着零售的互联网化,亚马逊等企业拥有了更多的数据,比如了解消费者点击的内容和在具体网页上停留的时长。Netflix等企业运用关于用户的数据及自有算法,个性化推荐用户可能会喜欢的内容。(例如,Netflix知道我喜欢2000年代初珍妮弗·加纳出演的浪漫喜剧片,不喜欢军事动作片或探险片,于是Netflix运用这些数据,在我的个性化个人主页上推荐我会喜欢的电影或电视节目。)

        能够正确运用大数据的企业比那些还依赖着落后技术的企业更具竞争优势。从大数据分析中获取的信息和结论使企业能够进一步进行定制,因此可以辅助企业优化业务决策。大数据也可用于应用程序转型,并根据历史趋势辅助推出新功能。

        大数据还可以向公众开放。开源数据之所以尤为强大,是因为更多的人可以参与分析,并得出许多不同的结论。过去三年里,中国各法院共计在网上发布了逾二千九百万份法庭判决结果。法庭数据的大规模发布正改变着法庭判案以及诉讼人和律师探索并运用法律制度的方式。仅河南省内的184个法院就已经在网上发布了1,058,986起案件信息,并且允许检索。开放对这些数据的访问权限有助于遏制司法失当行为,标准化司法结果并使结果可预测,为所有希望在该省开展业务的企业提供先例作为参考。

        大数据也可以用于预测,可以根据数据中的异常情况,预判可能出现的问题。随着各企业进一步深入了解其用户如何使用服务产品,了解看似毫无关系的变量之间有着怎样复杂的关系,企业也能够开始实时预测用户行为并相应作出反应。

解锁价值

        思科的网络专家预计,互联网流量将继续呈几何倍数增长,到2021年,全球所有设备每小时产生的流量将达到约6600万千兆字节。随着大数据背后的技术产品的进一步普及,这样的大数据周期将成为商业领域中更为常见的一个特征。传感器和移动联网的发展使企业的能力大幅增强,能够实时测量设备数据,存储数据同时允许访问,分析信息并获取关键洞见,并在业务实践中运用所得成果。在各细分领域中的生命周期和流程进一步完善的同时,精明的企业将全力寻求从大数据中解锁更多价值的方法。

 

* 本文翻译自英文原文,由中国美国商会会员公司Cadence提供翻译