盘点数据竞赛二十年:《数据竞赛白皮书》发布

来源:互联网 时间:2019-12-06

近日,中国乃至全球的第一份《数据竞赛白皮书》(以下简称“白皮书”)发布,首次为我们从全局的角度盘点了数据竞赛的发展历程、现状以及价值。白皮书指导单位为“大数据系统软件国家工程实验室”,和鲸科技携旗下第三方数据竞赛平台和鲸社区(Kesci),联合AWS共同发布。

据发布方的信息显示,白皮书通过搜集整理1000场全球竞赛数据、1000余份问卷调研、几十位行业专家及企业办赛负责人的访谈、超过1200小时的分析研究,共同打造并发布了《数据竞赛白皮书》(以下简称“白皮书”)。白皮书分为《数据竞赛白皮书·上篇·1000场竞赛的深度分析》和《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》两部分。

《数据竞赛白皮书·上篇·1000场竞赛的深度分析》中指出,数据竞赛的发展起点可追溯至 1997 年首次问世的 KDD Cup,由国际顶会KDD 牵头举办,这也是数据科学领域迄今为止最重要的国际赛事之一,至今已经举办22年。

今天,就让我们跟着白皮书一起,回顾一下这二十多年数据竞赛与国际顶会的历程吧。

2019年夏天有件令人惊喜的事件传遍了全国——KDD CUP 2019三个赛道的冠军全都被华人面孔拿下。被誉为数据挖掘领域「奥运会」的 KDD CUP,从1997年到现在已经举办了22届,是目前数据挖掘领域最有影响力的赛事。也是从今年开始开始, KDD CUP 拥有了专属的独立议程,供世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛,在KDD中的分量越来越重要。

K D D(Conference on KnowledgeDiscovery and Data Mining,知识发现和数据挖掘会议)隶属于 ACM(Association forComputing Machinery,国际计算机学会),是响誉全球的顶级学术会议。1997 年, KDD 正式推出 KDD Cup,KDD Cup 要求参赛者通过数据分析,判断出哪些人有可能成为美国瘫痪退伍军人协会的捐赠者,从而帮助协会更精准地发送求助邮件,开启了数据竞赛的新模式。此后,KDD Cup 保持了一年一度的举办惯例。

1999 年KDD Cup 的赛题更为经典,选用了来自美国国防部高级规划署在 MIT 林肯实验室操作进行的入侵检测评估项目数据,希望参赛者能够分辨那些操作是外部入侵,获胜者是广为人知的统计分析软件公司 SAS。作为数据挖掘领域影响力最广、水平最高的国际顶级赛事,KDD Cup 20 余年以来的赛题设计始终带有鲜明的工业应用色彩,每年都会吸引大量优秀的企业、高校或科研机构协办赛事,或直接参给与竞赛角逐。

通过KDD Cup 的历年成果上不难看出,虽然面临的问题日益复杂,但始终带有强烈的工业应用色彩,高度契合各类组织机构的实际需求,不断涌现出全新的应用场景。KDD Cup的成功,带动了ICCV、NeurlPS、ISBI、Euro CSS、ECML-PKDD、VoxCeleb、MICCAI、C-MIMI、IEEE-CIS、CVPR(ActivityNet)、IWCS、ECCV 等国际顶尖学术会议纷纷加入这一浪潮。

他们除了在世界不同地域举行年度性盛会外,也开始联手全球各地的企业、科研机构共同筹办数据竞赛,以短时间竞赛的形式帮助前沿数据科学技术的进一步发展。这类享有顶会权威背书和国际影响力的重大赛事在全球范围内得到了积极响应,参赛对象不仅限于技术水平突出的个人,还囊括了科研实验室、高校和企业等一系列组织。

国际顶会数据竞赛也往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与数据应用中的难点寻求解决思路, 不断缩短科研成果与落地应用之间的距离,赛题内容广泛覆盖医疗、军事、互联网、交通出行、快消零售、生态及文化保护等众多场景。

中国企业、高校及科研机构和个人参赛者在国际顶会数据竞赛的获奖次数呈现逐年上升的趋势,亦反应了中国在数据科学领域的实力和影响力不断加强。在中国也有一些企业开始和国际顶会合作,举办基于行业应用的数据竞赛。而数据竞赛的进程也伴随着人工智能相关科技专利的爆发期,从2000年开始不断向上。

根据麦肯锡全球研究院发布的 MGI 行业数字化指数报告,在产业数字化动态发展的过程中,完备的数字资产积累、充分的资本投入与研发、可持续的人才连接与协同推进了产业数字化程度的不断加深,进而带来了较高的平均利润增长率以及劳动增长率。

《数据竞赛白皮书》中提到,通过数据竞赛形式并以此建立基于数据价值流动的生态系统,才能充分利用生态内不断升级的人才资源和技术资源赋能商业发展,已成为越来越多商业领袖的共识。相较于传统的数字化进程,主动采用数字化战略的企业明显能在后续发展中与竞争对手拉开差距。

中国数据竞赛的崛起并非偶然,也不止是对国外先进模式的亦步亦趋,而是在技术落地应用需求增长、宏观政策支持和云计算基础不断成熟等原因之下的必然结果。建立基于数据价值流动的生态系统,充分利用生态内不断升级的人才资源和技术资源赋能商业发展,已成为越来越多商业领袖的共识。

据悉,在《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》中,和鲸科技将首次公开自身100+场专业赛事的服务经验,开源其数据竞赛管理的方法论,这将对数据竞赛行业产生不小的冲击。和鲸科技是中国对标Kaggle成立的,最早的数据竞赛平台之一,且在这个过程中形成了在用户数、用户质量、活跃度方面均有出色表现的中国数据科学家社区——和鲸社区(由Kesci发展而来)。在和鲸社区上,有来自中国联通、中国平安、招商银行、腾讯、百度、字节跳动、携程、IBM、华为、默克中国、南京市人民政府、深圳市人民政府、鹏城实验室等头部企业与机构举办数据竞赛。通过开放竞赛的机制和数据科学的手段,解决各个行业的业务难题。

国内最高规格的大数据竞赛,由教育部主办的“中国高校计算机大赛-大数据挑战赛”,以及奖金规模最大的人工智能大赛,由深圳市政府主办的“全国人工智能大赛”,都选择在和鲸社区完成全流程的组织。由此可见,《数据竞赛白皮书·下篇·办好一场竞赛的实操手册》必然会促进“数据竞赛”这一高效、敏捷的数字化创新模式,在中国进一步发展。

项目推荐

A5创业网 版权所有

返回顶部