028-86922100
简体中文
英国皇家学会院士樊文飞提出2个新理论:把大数据变小,突破企业资源限制
  • 时间:2022-10-13
  • 标签: 龙爱量子

图片来源:s://pixabay.com/images/id-4469138/目前是否过热需要冷思考,或是AI新创公司快要弹尽援绝了呢?最近,英国皇家学会(FRS)院士樊文飞(Wenfei Fan)也是爱丁堡大学主任教授,接受『MIT 科技评论』杂志访问,提出把变小,突破企业资源限制的看法,表示:▲ AI 目前可以帮助我们发现一些关联关系,提高生产效率。要使 AI 进一步发挥潜力,就需要提高基础计算引擎的效率。 ▲ 大数据是 AI 的基础。由于大数据计算的困难性,传统的经典计算理论已经不能够解决大数据的问题,需要新的理论和切实可行的技术 。▲ 计算器研究的核心是理论和系统。 樊文飞是国际学术界公认的在 数据库理论与系统领域都做出突破性贡献的极少数学者之一 。他是数据库领域获得国际数据库理论与系统四大顶级会议的最佳论文奖或十年最佳论文奖(SIGMOD 2017,PODS 2015 2010,VLDB2010, ICDE 2007)。他认为: 计算器研究的核心是理论和系统。 的背后代价和成本,不是一般的企业所能承受的。能否藉由理论的突破到系统的落地,来解决大多数企业因资源受限而无力进行大数据分析的现实问题。也就是说,通过『把大数据变小』,做到企业无论大小都能享受大数据分析的利益。于是,他的团队提出了两个研究理论:有界计算理论(bounded evaluation)及数据驱动的近似计算(data-driven approximation)理论。有界计算理论(bounded evaluation)所谓 有界计算理论 研究,基本思想是给定一个函数 F(x),参数 x 代表大数据集,然而,多数计算不需要访问全部的 x,而是只需要取 x 的一小部分就能得到 F(x)的精确解。也就是如何根据不同的函数 F,根据语义找到所需的 x 的那一小部分。举例来说,大企业通过测试发现,在数十亿条数据的实时查询场景下,91% 的查询可以用有界计算来解决;并在 70% 以上的查询中,查询效率提升 25 倍到 14 万倍。剩余 9% 不具备有界计算条件的查询,可以通过数据驱动的近似计算理论来解决。数据驱动的近似计算(data-driven approximation)理论根据用户的查询,在数据的层次表述中动态找到所需的数据,并在有限资源下计算查询的近似解。其特点是保证精确度,即对每个精确解,都找到一个对应的近似解使得二者之间的误差在一定范围内,同时每个近似解都对应一个误差范围内的精确解。目前,国际上还没有查询系统能做到这一点。举例来说, 在北京找一个离艺术馆比较近的、价格低于 500 元的旅馆,在资源有限的情况下只能查看一百条数据。但找出一个近似的结果,可能旅馆是 520 元,距离美术馆比较近的旅馆。 他的第一团队 数据征服者 简称CoD正在做 把大数据变小 这个理论的产业化落地,这个系统将有界计算和数据驱动的近似计算迭加,突破性解决大数据计算问题。该系统预计明年(2020) 将在 CNCC 大会展示区展出其系统原型。他的第二团队 GRAPE 基于两个理论研究以提升大规模图数据计算效率,从 2016 年开始,樊文飞着手研究并提出了两个理论:一个是基于不动点计算的单机图算法自动并行化的程序设计模型,另一个是同步/异步自适应并发计算模型。这些理论可以降低并行图计算程序设计的门坎,保证计算正确性,同时可以大幅提升效率。这些工作获得了包括 SIGMOD 和 VLDB 这些行业顶级会议上的三个奖项。该GRAPE系统,已于 2018 年 3 月 5 日在中国设立公司,后由一家互巨头所收购,将建立一个GRAPE开源小区及打造成为一个中国的国际 IT 软件品牌。
龙爱量子

让我们保持联系

及时获取我们的新产品、活动及新闻信息