1. 首页
  2. 最新资讯
  3. 视频识别

据机器之心了解,今年腾讯共有17篇论文被ICML2018…

据微软技术博客消息,继开放图像、人脸、语音、文字识别API预览版之后,微软研究院的机器学习项目ProjectOxford刚刚又开放了说话人、表情与视频识别API。机器学习是巨头近年来的竞争热点。这种竞争体现在了开源上面,今年以来Facebook、Google、微软、IBM等均先后开源了自己的机器学习系统。

开源当然可以造福开发者,但是这背后也有巨头想打造自身生态体系和吸引人才的动机。不过,这种开源吸引的是专业开发者,为了壮大生态体系,技术公司还需要靠易用的API和有趣的应用吸引应用开发者和用户。比方说今年风靡全球的How-Old.net传图猜年龄的应用就很有趣,吸引了许多媒体关注和用户参与。微软今年在Build2015大会发布的ProjectOxford就是一个面向应用开发者的机器学习开源项目,它提供了一系列的文字、图像、语音、视频识别的API与SDK,里面使用的模型都是通过微软现有其它产品中使用的深度学习和机器学习技术训练得到的,开发者可以很方便地将功能植入到自己的应用里面。ProjectOxford开放的API包括三大类:视觉、语音与语言。

其中视觉方面之前开放预览的API包括计算机图像识别、人脸识别,此番新增了表情识别与视频识别。表情识别可通过分析人脸分辨其情绪是快乐、惊喜还是悲伤等;视频识别则可以进行动作识别与视频静态化处理。语音识别在原有的语音识别基础上增加了说话人识别,即不仅可以知道说的是什么,还能知道说话者是谁;以及自定义智能识别服务(CRIS),可针对不同的语言和声音进行定制识别。语言方面包括了拼写检查和语言理解智能服务(LUIS),后者可为应用提供自然语言命令识别服务。此次新增的两项API还是有不少可挖掘的应用场景的。

比方说,说话人识别API可帮助通过语音识别用户或客户,这可以用来辅助进行用户鉴权的工作,提高系统的安全性。或者也可以应用到客服方面,通过来话识别客户,增强客服效率和客户体验。而视频识别API显然有助于进行视频分析与自动化编辑,比方说检测视频中的人脸和动作然后进行相应处理等。感兴趣的可到ProjectOxford网站试试。为什么说大数据工程师会在2017年越过越滋润?。

数据生态系统在2017年终于实现了火力全开。本文为大家提供了一个有关大数据领域详细的“国情咨文”,以及投资机构针对这一行业的见解和关键趋势。本文最初发布于MattTurck博客,经原作者授权由InfoQ中文站翻译并分享。写在前面身为数据极客,在2017年应该能感觉很幸福。去年,我们曾经问过大家“大数据还是个值得关注的大事吗?”,并注意到由于大数据更像是一种“系统化工程”,因此在企业的接受速度方面要落后于整个业界的炒作。

大数据技术用了多年时间进行演化,才从一种看起来很酷的新技术变成企业在生产环境中实际部署的核心企业级系统。2017年,我们已经很适应这样的部署阶段。“大数据”这个词正在逐渐淡出我们的视野,但这种技术本身还在飞速扩张。各行各业的各种轶事和证据证明相关产品越来越成熟,在越来越多的财富1000强企业内开始投入实用,很多初创公司借助这些技术快速实现了收入增长。与此同时,宣传炒作的泡沫开始毋庸置疑地转向了这个生态系统中机器学习和人工智能等领域。

过去几个月来,人工智能领域涌现出一种“大爆炸”式的集体意识,这一情况与几年前大数据技术的“遭遇”相差无几,不过发展速度更快。从另一个角度来看,2017年也是激动人心的一年:望穿秋水的IPO。