天才一秒记住【长江书屋】地址:https://www.cjshuwu.com
问题就在于电子版的录取通知书不好搞。
网上是可以找到很多相关的图片,在那些图片上用ps改个名字和照片也是很容易的事情。
但问题是,如果要追求逼真的话,那录取通知书的色彩以及尺寸还是得尽量准确。
但想从网上检索到的图片中获取通知书各个部位的色彩色号,以及大小尺寸,这并非是一件简单的事情。
先,哪怕是同一张通知书,不同的人在不同的时候用不同的手机摄像头,都会拍出不同的色号来。
其次,想从图片里面还原出通知书实际的尺寸,也是要费一点功夫的。
林远随后打开了pynet祭起爬虫脚本。
学好数理化,走遍天下都不怕。
你看,这个时候就用到了。
为了解决色号的问题,林远打算用爬虫脚本来大批量爬取网上的紫金航校研究生录取通知书图片。
然后综合汇总之后做个筛选,再取个平均值。
筛选是必须的。
因为这年头拍照用美颜太普遍了,鬼知道会把实物的色号改的如何面目全非。
至于什么是“色号”
。
顾名思义:就是标识每一种色彩的编号,相当于颜色的身份证。
由于计算机世界的一切数据都是数字,那颜色自然也就不例外。
最常见的颜色定义格式就是RgB三基色,R(red)、g(green)、B(b1ue)红绿蓝三基色可以调制出各种不同颜色。
当然,除此之外还有cmyk、hsB等等。
但在计算机世界中,还是RgB格式使用更广。
这个级别的爬虫并不难写。
林远只需要爬取某度搜索引擎的搜索结果,然后从中摘取出图片,再通过ocR字符识别过滤一遍,把带有紫金航校研究生录取通知书字样的图片挑选出来。
接着来一个目标识别--将图片中的录取通知书所在区域抠图抠出来。
然后再做一份数字图像直方图,就是把录取通知书图片中每种色号做个统计。
接下去再对统计结果做一个排布。
就好比跳水比赛的打分,去掉最高分和最低分,取个中间值即可。
这种方式相对简单,其实就是筛选出中间值。
但是这个过程还是涉及了一些计算机和数字图像处理方面的内容,好在如今这个年代得益于摩尔定律的强大推动,计算性能的天花板被一再突破,计算机科学与aI技术展飞快。
2o年前在大型实验室里才能尝试的图像目标识别,如今仅凭一台古董级别的T44o就能运行。
当然,这并非是图像目标识别这件事情简单,而是在无数的人开源贡献之下,让这项技术使用起来变得简单。
(本章完)
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!