视觉AI新基建，微美全息/FACEBOOK/微软等5G+布局科技化

来源：互联网时间：2020-06-04

基础设施建设是经济发展的底座，决定了经济发展的可能性和边界。以“铁公基”为代表的“老基建”支撑了中国经济40年高速发展，成就了中国经济奇迹。以5G、人工智能、物联网、智能计算等新一代技术为驱动的“新基建”，将支撑未来40年的中国经济繁荣。

过去40年，我们以空间换时间，经济飞速发展的同时也暴露出一系列可持续发展问题。譬如，人口增长下公共服务供给却相对不足，特别是医疗和教育领域，资源分布不均，优质资源主要集中在少数一线城市，且分配效率低下;城市基础设施承载能力与人口发展失衡。在道路交通方面，一、二线城市交通拥堵十分普遍，造成大量社会时间成本损失，且车辆挤占城市公共空间，影响城市整体布局;在城市治理方面，传统消防、能源、安防等服务管理系统在人口压力下面临重大挑战。而在疫情期间，“老基建”下的传统经济几近停工停摆，一大批中小企业破产倒闭，在“黑天鹅”等突发事件下，系统整体缺乏韧性，应急能力有待提高。

视觉AI新基建为“老基建”、公共服务设施、各行各业装上“眼睛”，通过数字化、智能化升级，来增进系统韧性和应急能力，实现可持续化发展，为下一个40年超前布局。

城镇化的推进必将带来人口的大规模聚居，未来10年将有68%的人口生活在城市，单体城市规模将突破5000万~8000万，对城市治理、道路交通等基础设施带来巨大挑战。城市基础设施建设和改造需要结合未来人口变化趋势，纳入城市可持续化发展的蓝图之中。AIoT通过“设备物联”和“数据智能”技术，帮助城市基础设施、城市服务管理系统(包括消防、能源、水务、警务等)完成数字化、网络化、智能化、执行自动化闭环，为超大规模城市治理提供高效解决方案;在城市轨交“老基建”的基础上，通过智能化升级和改造，实现刷脸支付、无感过闸通行、超大客流安防监控和超大规模线网管控，减少人力成本投入，缓解城市轨道交通压力，为地铁运营管理服务降本增效;而无人驾驶让出行回归本质，通过车路联网和自动驾驶技术，大幅减少汽车闲置率，更高效地利用道路网络，结合共享出行消灭大量停车场，小型充电桩取代加油站，为城市绿化释放空间，将“城市中的公园”升级为“公园中的城市”。

视觉AI新基建为万物装上“眼睛”，未来“无应用不视频”，“无硬件不视觉”，视频数据将迎来大爆发。英特尔预计2028年90%的互联网流量是视频。海量视频数据在采集、标注、剪辑、处理、传输、存储、监管等方面，需要依托强大的智能视觉基础设施提供高稳定、高性能的算力支持。国外厂商谷歌、微软、Facebook、英特尔、英伟达纷纷投入巨资抢滩AI超算中心，微美全息自主研发的计算机视觉的全息云平台。在实际应用中，平台计算不仅支持C端用户视频数据，譬如视频解析技术协助广电短视频化和节目制播，融合AR特效技术的短视频、互联网直播，也支持B端自动驾驶路测等产业视频数据，以满足在应用端算法部署的高精度、低时延、高性能、快迭代要求。

微美全息(WIMI.US)专注于计算机视觉全息云服务。作为国内全息AR的代表企业，据介绍，微美全息覆盖从全息计算机视觉AI合成、全息视觉呈现、全息互动软件开发、全息AR线上及线下广告投放、全息ARSDK支付、5G全息通讯软件开发、全息人脸识别开发、全息AI换脸开发等全息AR技术的多个环节，是一家全息云综合技术方案提供商。其商业应用场景主要聚集在家用娱乐、光场影院、演艺系统、商业发布系统及广告展示系统等五大专业领域。

微美全息(WIMI.US)的AR+直播直播优势很显而易见，可真实模拟任意场景，体现产品在不同真实环境中的使用请况;可以展现更为复杂的产品，让受众更为直观了解产品的内部结构和产品细节;突破人员限制，同时又可以锁定人群进行直播精准投放，宣传力度效应更广;线上互动性更强，嘉宾与粉丝可在直播期间进行互动，并对他们的问题进行实时筛选作答;进行实时效果合成，直播结束即可获得整套完成视频，无需再进行后期剪辑，第一时间用于宣发。

微美全息(WIMI.US)依托自我成熟的视觉设计团队基础，深度开挖AR直播技术，正式上线AR直播业务，丰富自我的业务结构，为客户提供更多服务，解决客户问题，涵盖多行业多领域。

微美全息(WIMI.US)AR+直播系统，简单来说就是通过AR全息科技，让观众可裸眼观看全息人物或场景在现实中的真实还原，身临其境，用户体验可以用叹为观止来形容微美全息将全息技术与娱乐模式相结合，观影者能够成为电影/舞台中的角色，介入影片/舞台事先设置的环境与剧情，让观影者身临其境般感受到自己就是电影/舞台里的一份子，观影者就是影片里的主角或是其中一员，并持续与影片/舞台内容产生交互作用。

全息直播是展示的一个新的方式和发展方向，通过全息投影技术，参观者不仅能看到清晰的图像，而且是全方位、多角度的看到立体、逼真的图像，结合原有的展示方式，充分的呈现了直播的内涵、细节，更加激发了大众接受新事物的积极性。

近期，Facebook亮相了一款通用商品辨识AI系统GrokNet，GrokNet可用来分割、检测和分类商品藉此来了解商品该摆在什么地方，并提供购物建议。

GrokNet通过96个Nvidia Tesla 100 GPU、7个垂直行业资料集和83个不同的数据集(共35亿张照片、1万7千个标签)训练而成。数据集中囊括了来自上百万名使用者贴出与商家货品的照片，种类横跨如SUV汽车、细跟高跟细以及床头柜等多种商品类型。以此前识别系统相比，GrokNet在产品匹配的准确度方面提高了2.1倍。

据了解，GrokNet已用于Facebook Marketplace，与近期推出的电商服务Facebook Shops之中，也就是说当卖家将照片上传到Marketplace时，系统会自动建议列出商品属性标签，如颜色、材料等。而对于买家而言，GrokNet则能帮助其进行特定商品的搜索，如黑色真皮组合沙发一类，并找到所需的内容，即使您的搜索字词与卖方的产品说明不符也依旧能精确寻找的商品。

Facebook表示，GrokNet已可辨识数十亿张照片中的产品，不管这些产品是一模一样、相似，还是一张照片中有多种商品存在，都难不倒它。

除部署在Marketplace之外，Facebook还使用它来测试Facebook Pages上的自动产品标记。这将有助于小型企业更轻松地销售其产品，同时使消费者更容易找到自己喜欢的产品。此外Facebook还计划使用它为商店提供动力，以便客户可以从企业中获得与他们最相关的产品的个性化建议。

5月19日，微软和Sony联合对外发布新闻表示，双方共同致力于为AI和IOT技术驱动的智能相机和视频分析技术打造全新的解决方案——即在全新的智能视觉传感器IMX500中嵌入微软Azure人工智能技术，同时还将在Sony智能相机相关应用程序中使用微软Azure物联网和认知服务技术。

与此同时，Sony还将同微软人工智能和物联网实验室达成深度合作，在计算机视觉和视频分析领域，与微软的合作伙伴和客户共同创新，并在全新解决方案的帮助下促成项目成果应用落地。

不仅如此，微软人工智能和物联网实验室同Sony的技术合作，还将共同携手合作伙伴和企业客户在计算机视觉和视频分析方向共同创新，促进整个图片和视频处理技术行业的正向快速发展。此外，伴随着越来越多的合作伙伴和客户使用这一智能技术解决方案，客户企业之间同微软及Sony也将共同搭建出一个基于图片和视觉处理技术的生态圈，这无疑将进一步助推相关领域在短时间内实现技术突破。

当前互联网上大于75%的流量都来自于视频，据估计5G时代视频流量更是高达90%以上。如何压缩、传输以及分析视频内容成为5G部署及大规模应用的关键。虽然传统的5G部署也有一定市场，但经过AI加持的智能终端/边缘/云计算可以为5G带来更大的收益及降低其部署成本。

如今，3D视觉已在各行各业落地生根，给人们工作和生活带来极大便利，基于3D识别技术衍生的手势识别、骨骼识别、物体测量、3D测绘等应用模式已经在智能家居、智慧交通、智慧医疗、智能机器人、智慧生产等众多领域发挥极为关键的作用，成为众多前沿科技实现落地商用和应用模式创新的催化剂。5G+AI搭台3D技术唱戏，当接入高速低延5G网络的智能终端具备“看懂”世界的能力，未来精彩将会彻底颠覆我们的想象!