河南大学教授张重生发布ShopSign大数据 助推AI城市建设

2019-04-08 08:53:59 | 来源:海外网 | 编辑:司马义 | 责编:刘征宇

  智能城市,万物互联。据《中国人工智能城市发展白皮书》显示,北京、上海、杭州、深圳、合肥等15城已上榜中国人工智能城市15强榜单。总体来看,上榜城市中,北上广深等一线城市占据主流,南京、武汉、杭州等二线城市也跻身榜单。

  在人工智能城市中,人工智能、大数据要与地理和经济结合才能更懂城市。人工智能城市最需要的基础数据是海量的街道实体数据。为了攻克这一关键问题,河南大学张重生教授团队耗时两年零四个月,构建了大规模中文标牌图像数据集,以利用新一代人工智能技术实现海量街道实体标牌数据的自动采集、定位和精准识别。

【政策 法规 舆情-列表】建设人工智能城市 构建中文标牌

  据张教授介绍,日常生活中,尽管腾讯、高德、百度等电子地图已广泛应用于市民的交通出行中,但大约90%以上的城市商铺却在电子地图中无从找寻,不能充分满足人们的日常需要。导致这一现象的原因其实就是城市兴趣点数据(POI)的缺乏,商铺名称及其GPS位置信息就是一个典型的城市兴趣点。

【政策 法规 舆情-列表】建设人工智能城市 构建中文标牌

  全量的城市POI数据为人工智能城市提供最重要的基础数据支撑。基于新一代人工智能技术的城市POI自动采集、定位和精准识别,是实现大规模城市实体POI自动获取和快速更新的必由之路。商铺是城市中最广泛存在、最具代表性的街道实体,因此,大规模中文标牌图像的自动识别是实现全覆盖的城市POI自动采集亟需突破的关键技术。

【政策 法规 舆情-列表】建设人工智能城市 构建中文标牌

  为了促进中文场景图像的识别研究,河南大学张重生教授组织了40名学生(研究助理)和10名标注人员, 纯手工构建了一个大规模的中文场景图像数据集--ShopSign:大规模中文标牌图像数据集。该数据集的特点是均为商铺标牌(匾额),共计25,770张图像。 横跨北京、上海、新疆、福建厦门、辽宁、黑龙江、内蒙古(呼和浩特),以及河南的郑州、开封,及商丘、周口、信阳的县级城市,和城市中的落后地区(郊区)。图像几乎全部用手机拍摄,少部分用单反相机拍摄。由于汉字的特点,该数据集极为稀疏和不均衡。由于没有第三方平台和公司的资助,该团队耗时两年零四个月才完成该数据集的收集及标注加工。

  该数据集的预印本论文(ShopSign: a Diverse Scene Text Dataset of Chinese Shop Signs in Street Views)于2019年3月26日在arxiv上发布(论文地址: https://arxiv.org/pdf/1903.10412v1)后,旋即得到腾讯、美团、华中科技大学、华南理工大学、北京科技大学等企业和高校的高度关注和赞赏。张教授表示,为了促进国内外在中文场景图像上的文字识别研究和应用开发,他愿意将ShopSign数据集全部对外开放,不做任何保留,尤其是不保留测试集的标注数据。

  新型智慧城市、大数据、人工智能是我国政府近年重点发展的方向,与城市、经济、地理空间相结合的空间人工智能(GeoAI)研究开始得到越来越多的关注。张重生教授及国内相关科研团队在ShopSign数据集上拟研制的中文场景图像上的文字识别算法和技术,对于电子地图、基于位置的服务等领域具有重要作用,有望为人工智能城市提供最为重要的基础数据支撑。(图/文:王猛)

分享到:

国际在线版权与信息产品内容销售的声明:

1、“国际在线”由中国国际广播电台主办。经中国国际广播电台授权,国广国际在线网络(北京)有限公司独家负责“国际在线”网站的市场经营。

2、凡本网注明“来源:国际在线”的所有信息内容,未经书面授权,任何单位及个人不得转载、摘编、复制或利用其他方式使用。

3、“国际在线”自有版权信息(包括但不限于“国际在线专稿”、“国际在线消息”、“国际在线XX消息”“国际在线报道”“国际在线XX报道”等信息内容,但明确标注为第三方版权的内容除外)均由国广国际在线网络(北京)有限公司统一管理和销售。

已取得国广国际在线网络(北京)有限公司使用授权的被授权人,应严格在授权范围内使用,不得超范围使用,使用时应注明“来源:国际在线”。违反上述声明者,本网将追究其相关法律责任。

任何未与国广国际在线网络(北京)有限公司签订相关协议或未取得授权书的公司、媒体、网站和个人均无权销售、使用“国际在线”网站的自有版权信息产品。否则,国广国际在线网络(北京)有限公司将采取法律手段维护合法权益,因此产生的损失及为此所花费的全部费用(包括但不限于律师费、诉讼费、差旅费、公证费等)全部由侵权方承担。

4、凡本网注明“来源:XXX(非国际在线)”的作品,均转载自其它媒体,转载目的在于传递更多信息,丰富网络文化,此类稿件并不代表本网赞同其观点和对其真实性负责。

5、如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。