掏出iPhone对着车站的电影广告拍张照片,你就能马上知道电影资料详情,还能顺手获得影院的优惠卷

– 这种体验很快就会到来

  

      

       随着智能手机的普及以及云计算技术的成熟,一种新的视觉识别技术悄然而生,把人们带入了新的“视界”。这种技术以手机摄像头为入口,用户将拍摄的图片上传到云端的视觉识别服务器,稍作等待,服务器即可返回手机识别的结果。短短数秒,就能让用户获取周边场景中的信息,比如这个车标是什么品牌、这张海报里都有谁……


【市场动态】


       市面上有一些产品提供这样的视觉识别服务:

公司

产品

识别物体分类

Google

Goggles

Landmark/Book/Artwork/Grocery …

Amazon

Snaptell

Book/DVD/Game covers

Nokia

Point&Find

Landmark/Barcode/Movie poster

Kooaba

Kooaba

Book/DVD/Game covers

oMoby

oMoby

General Objects


        Goggles可以识别文字,书籍,商标,地标,酒,名片,条形码,艺术品。种类之多是其他几家远远所不及的。


        Amazon Snaptell可以识别的对象比较有限,限于书籍,CD/DVD等封面。


        Nokia Point&Find是Nokia自家的图像检索引擎。特点是与现实结合比较紧密,提供了一些基于LBS的服务,比如说扫描条形码,就提供所在城市该商品的各个商店的价格信息。但识别种类有限,而且是基于Symbian系统,在目前Android及iPhone占主导地位的市场环境下几乎没有大的竞争力。


        以上产品的数据主要来源于欧美地区,所以对国内的图片识别并不理想。


【SOSO慧眼2.0的探索】

      

       秉承着相似的理念,借助智能手机普及的风潮,腾讯研究院正在开发中的SOSO慧眼2.0希望以视觉识别技术为基础并做出创新,打造出一个移动视觉识别开放平台。


          SOSO慧眼2.0具备一种功能强大的视觉识别系统。该系统主要由两部分组成:手机端的前端采集和展示系统,以及云端的视觉识别云服务。视觉识别云服务的输入为用户拍摄的图片,输出为识别出的图片中所包含的各种分类信息。

      

      该云服务的云端架构主要分为两部分:接入请求和分类视觉识别服务。


1)接入请求

      

      用于对服务请求做预处理,获取请求的图片数据,并将服务请求组织成不同的分类识别任务,转发给不同的分类视觉识别服务。


2)分类视觉识别服务

      

       专门负责检测、识别图片中的各种物体,并根据识别结果去物体数据库中检索出该物体的相关信息。

这些分类服务有:物体识别、文字识别、人脸识别、条码识别……等。随着数据源的增加 ,可以进一步细分扩展出Logo视觉识别服务、景物视觉识别服务、图书视觉识别服务、CD视觉识别服务……等。


        视觉识别的云服务总体架构如下:

  

         尽管有一些类似产品存在,但与SOSO慧眼2.0的开放平台前进方向还是有不小的差异。


【作为开放平台的SOSO慧眼2.0】


       从慧眼的1.0版本,1.5版本的名片识别、文字即时翻译、人脸识别到如今正在开发的2.0版本的视觉云识别,腾讯研究院无论是从图像识别技术的提升到数据库的累积上都在经历着量变到质变的变化。然而,作为移动视觉识别云平台,只是做到对图像进行识别是远远不够的。


       慧眼会对识别出的结果会提供进一步的服务,让用户通过一张照片不仅获得其想要的基本信息,而且能完成整个商业行为,如购买,比价,查询商店地图,去相关微博……等等。