2016年

CIO们:如何发挥您企业数据科学家的作用?

2017-09-11 22:46 一优租赁 点击次数 :

摘要:企业CIO们要如何掌控当前飞速发展的数据科学,并使之成为企业的核心能力呢?

  企业CIO们要如何掌控当前飞速发展的数据科学,并使之成为企业的核心能力呢?

  数据科学代表了由分析所推动的企业将进入下一个时代。利用其潜力,将有助于企业超越其竞争对手、提高效率、创造新的营收。成功的首席信息官将在其所服务的企业把数据科学从业务周边转移到核心,通过制定相关的架构和管理制定,提供对于最新技术的无限访问,可视化和可审计性,进而实现与企业业务的紧密配合。

  今天的企业CIO们所面临的挑战是如何整合数据科学基础设施,以便在不限制数据科学家们的自由度和灵活性的前提下,提升企业对于数据的管理。而未能采取相应措施的CIO们或将导致整个企业的业务陷入麻烦的孤岛,甚至造成企业内部技术的不一致,超出了IT部门的管辖范围,甚而阻碍了企业从其数据科学投资中获取价值的机会。

  部署实施了恰当平台的CIO将实现三赢:

  实现更好的IT管理,同时推动创新,开拓新业务的价值

  让数据科学家们获得自助服务和灵活敏捷性。

  企业将从其数据科学投资中获得更大的回报。

  何谓数据科学

  数据科学将成为数据驱动的业务的下一个前沿,数十年来一直在不断发展。

  上世纪80到90年代,数据存储、数据管理和数据仓储技术占主导地位,从而让彼时的企业组织掌握了存储数据的价值,以改善业务运营。

  90年代后期,商务智能(BI)技术普遍兴起,使得企业组织通过数据管理技术所掌握的洞察分析力更进一步的为企业业务所充分运用。

  随着诸如Hadoop等NoSQL技术的兴起,2000年代出现了“大数据”的繁荣,这些技术提供了开源的、低成本的数据处理和存储方法,使得无限期保持完整的保真度数据变得合理。

  数据管理和分析的发展为数据科学铺平了道路,这一术语在2010年左右获得普及,有时也被称为“定量研究”或“决策科学”。数据科学包括机器学习(ML)、基于数据输入的预测计算过程,并随着数据的变化不断改进这些预测。机器学习只是数据科学广泛武器库中的一种武器。

  数据科学将统计数据与计算机科学大大结合,以查找大数据中所蕴含的模式,并使用这些模式来预测结果或推荐企业应采取的行动或决策。

  数据科学将推动企业从众多市场竞争者中脱颖而出

  几十年来,企业组织一直渴望成为数据驱动型的企业。他们花费了多年的时间来开发技术,使得有效地捕捉、存储和管理来自当今世界的系统中的数据成为了可能。现在,鉴于这些数据的可用性,使得整个企业的每一名员工和每个部门都受益匪浅,进而推动企业迅速且积极地采用分析和数据科学。

  数据科学被广泛认为应当成为一项核心的企业能力,其具有推动企业增加新的营收、自动化决策、改进产品和增强客户体验,进而提高企业竞争优势的潜力。这种潜力正在推动企业高管们在这方面进行大量投资。

  IT企业有机会通过提供有助于使数据科学成为核心企业能力的基础设施来帮助企业实现这一投资的全部潜力,而不是收集孤立的人员和工具。

  现代企业可以利用数据科学来:

  预测并减少优秀员工的流失,以设法留住他们

  预测客户的生命周期价值和客户流失

  保持在竞争市场的领先

  优化物流、运营和供应链

  在其产品中建立预测功能(例如,提供建议),以改善客户体验

  CIO的挑战

  1、数据科学究竟有何不同?

  前几代数据技术涉及集中的单片组件:例如一台BI服务器、数据库服务器、数据湖平台。而相比之下,数据科学工作则涉及数十种较小的工具和技术,其中许多工具和技术旨在在数据科学家工作站的本地使用。

  除此之外,这些语言具有丰富的“软件打包”系统,为更专业化的目的提供了补充功能。许多这些软件包和工具是开源的,可以在线下载,数据科学家们定期下载数十个或数百个软件包以用于日常工作。而且在过去几年中,围绕这些工具和软件包的开放源码系统已经获得了蓬勃的发展,推动了快速的创新,频繁的更新,乃至每个月可提供全新的软件包。换句话说,现代数据科学的工作存在于数十个或数百个客户端,而不是集中在一台服务器中。

  根据KDnugget网站在2017年的调研显示,数据科学中最流行的语言是Python和R。

  2、数据科学在企业的混乱局面

  数据科学家们渴望始终走在技术的最前沿,并利用这些最前沿的技术,通过各种工具和软件包进行实验。随着开源系统的创新更快速化,这一尝试的速度越来越快。结合基于客户的工作,大量易于访问的技术以及快速实验的愿望在大多数企业中创造了数据科学工具采用的混乱局面。不一致的技术分散在企业的不同部分,没有任何管理或透明度。

  更糟糕的是,在许多企业中,“影子IT”正在逐渐增加,以支持这些系统。例如,一个小团队可能会在共享服务器上安装RStudio或Jupyter(都是免费下载的)以用于其团队的业务,而不考虑支持要求或与企业其他部分的一致性。

  除了上述这类明显的问题之外,这种混乱的数据科学工作也造成了其他的一些问题:

  重要的业务流程依赖于不可靠的基础架构。数据科学家通常会将计划的作业设置为在本地计算机上运行,或者将共享服务器作为“实验室”或“开发”机器运行。一家财富十强的银行的关键业务流程依赖于数据科学家每天在其笔记本电脑上运行的模型——而这一现象只有当该数据科学家离职并且这台笔记本电脑被淘汰时才被发现。

  计算成本可能过高而不受控制。与BI不同,数据科学涉及计算密集型技术,需要大功率机器和像GPU这样的专业资源。特别是在云环境中,混乱状况下的数据科学家们可能会无意中每天花费数千美元,使昂贵的机器不必要地运行。

  高价值的知识产权保护不当。预测模型和分析可以将洞察力纳入竞争优势的关键,而且这些工作往往分散在网络驱动器、维基或Sharepoint站点。

  数据科学家在DevOps工作方面浪费了时间。数据科学家是宝贵的,他们的薪酬相当高昂,但他们经常必须花费25%的时间来处理DevOps的任务,例如安装软件包并在机器之间迁移文件。

(责任编辑:一优租赁)
文章人气:
(请您在发表言论时自觉遵守互联网相关政策法律法规,文明上网,健康言论。)
用户名:
验证码:
首页 | 科技新闻| 电脑租赁| 笔记本租赁| 台式租赁| IPAD租赁| 打印机租赁| 传真机租赁| 显示器租赁| 服务器租赁| 投影机租赁| 网络设备| 房产楼市| 旅游资讯| 汽车资讯