大数据(big data,或译“巨量数据”)的崛起,可以说是因为Google的Sergy Brin与Larry Page开发了一种算法,能在网络上找到比其他竞争对手搜索引擎相关度更高的结果;Google的这一课持续在所有试图于数据库中寻求具竞争力见解的企业之间发酵,无论规模是大或小。

今日的物联网(IoT)开启了大量的数据源,也扩展了大数据将颠覆商业、科技以及技术人员职业的承诺;在这一路上,大数据催生了新种类的处理器与系统架构,还有持续演进的算法与编程技术。

企业情报暨商业信息服务业者美商邓白氏(Dun & Bradstreet)的资料科学长Anthony Scriffignano在一场最近由美国硅谷商业/科技论坛Churchill Club举办的活动中表示:“我们正被数据淹没的概念是新常态。”

也在该场活动中发表演说的IBM首席资料长(chief data officer,CDO) Inderpal Bhandari则表示,大数据分析的目标是:“改变一家企业的主要业务流程,让他们有更好的成果,并因此能更快做出更好的决策。”

美国科技圈最近几个首次公开上市(IPO)的大案子也是搭上了大数据热潮,包括商业软件业者Cloudera与Hortonworks,两家都是开源大数据分析架构Hadoop──相当于Google的核心算法MapReduce──的推手之一。

在斯坦福大学(Stanford)的的资料科学计划(Data Science Initiative)下,研究人员正在开发一般企业能够掌控的大数据技术;该计划执行总监Stephen Eglash表示:“机器学习令人印象深刻,但实在不容易运用,就算是最先进的公司可能也只有少数几个人能充分发挥那些技术。”

但Eglash指出:“我可以想象有一天,那些工具就会像微软(Microsoft)的Office那样容易取得;”为了达成以上目标,斯坦福的研究人员着手开发一款名为Snorkel的工具,能将大数据集的归类(labeling)与吸收(ingesting)程序自动化。

“要看到该工具成功运作还需要好一段时间;”Eglash表示:“我们希望领域专家(domain expert)能在不需要信息科学专家的情况下使用那些技术。”

IEEE的大数据计划采取的是另一种方案,让大型数据集能透过其Dataport服务免费供研究应用;到目前为止,其数据库内容已经包括了从纽约市(New York City)交通实时路况到人脑神经元运动等各种各样的例子。

商用巨量资料研发项目的种类也是同样五花八门;成立于1976年的老牌商用数据分析软件业者SAS首席数据官Wayne Thompson表示:“我们正在与一家半导体业者合作,协助他们透过改善计算机视觉来降低晶圆厂工艺的缺陷率。”

Thompson进一步指出:“另外一个我们的研发伙伴则正在利用深度学习来提升足球员的表现。我们也利用深度学习,透过足迹影像追踪与分析来监控并计算濒临绝种野生动物的数量。”

较小型的公司也在市场闯出一些名号,例如Real-Time Innovations Inc. (RTI)虽然员工仅有150人,其创新的实时监控数据总线(databus)软件号称取得了超过1,000个设计案;该公司的节点追踪(tracking nodes)采取订阅/发布(subscribe-and-publish)模式。

RTI软件的第一个大客户,是安装在美国海军驱逐舰U.S.S. Cole上的中介软件服务器;该驱逐舰才刚经历在中东遭炸弹攻击事件。此外该软件也应用于水力发电厂、医疗设备,以及风力发电场等设施。

最近RTI延揽已被甲骨文(Oracle)收购的太阳计算机(Sun Microsystems)共同创办人Scott McNealy,坐镇协助公司扩展规模的顾问团;McNealy表示,RTI的业务是所谓“网络计算机”(the network is the computer)的下一个阶段演进:“今日的网络也是电厂以及其他许多东西。”

业界对数据科学人才迫切需求

根据《哈佛商业评论》(Harvard Business Review)的调查,大数据崛起使得数据科学家成为科技领域最炙手可热的职业之一。

对此斯坦福大学的Eglash表示:“目前资料科学人才需求量远远超过供给量,感觉几乎地球上每家公司都发现自己坐拥价值连城的数据,都在试图搞清楚该如何充分利用它们;”而他认为,这种趋势并非一时热潮,而是科技素养(technical literacy)迈入一个新阶段。

Eglash指出:“就像是每个受过教育的人都应该能写一段文章或是做算术,感觉我们正迈入一个只要是做为社会的一份子、感觉每个受过良好教育的人就该拥有基本资料科学素养的时代;这并不是说每个人都需要会写程序,但确实需要成为数据分析推理的关键消费者。”

明智的企业将会了解他们可以将哪些工作外包,以及哪些专门技术是他们应该自家拥有的;Eglash表示,具备提出集中焦点问题的能力是关键,而不只是说“让我们来看看我们的数据里有什么”;例如他们应该要会问,若结合他们的制造数据以及公开的商品定价数据,能如何更有效管理供应链。

SAS的Thompson建议年轻人认真思考投入数据科学领域的职业:“我认为我们将会看到更多机器人,特别是具备对话能力的,这能大幅减少无效、成本高昂的互动发生…并让我们能享受更好、更丰富的生活。”

Eglash也同意以上看法:“我们恰逢几种黄金时代,人工智能(AI)与数据科学显然也在其中,这是一个伟大的时刻,无论你有没有兴趣,都该去了解有关于统计学以及数据科学的相关知识。”

编译:Judith Cheng

本文授权编译自EE Times,版权所有,谢绝转载

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。