图像相似度算法及其适用场景分析

图像相似度算法及其适用场景分析

前言

工作中,我们可能会碰到一些需求,需要比较不同图像的相似度,或者从大量图片中快速找到相似图片,这就需要借助相应的图像相似度算法来帮助我们实现。另外,机器学习和人工智能的大部分应用场景,都需要借助图像相似度算法,这也算是学习AI的重要一步。所以,在这里,我们一起探究主流的图像相似度算法,并尝试用OpenCV和Python来做简单实现。最后,根据不同相似度算法的优劣,总结出其对应的适用场景。

在比较两个图片的时候,我们总会有一些不同的需求,有时候我们希望能精确的比较两个图片是否完全相等,有时候,我们希望仅仅比较图像的相似度。

想要研究这个是因为最近我们碰到一个问题,我们想要检测两个图片是否相等,当这两个图片完全相同的时候,我们希望可以直接了当的返回一个True,当这两个图片有一丢丢的差距的时候,我们也希望可以返回True。但是如果严格用差值法对比图片,第二个需求就不满足,所以需要通过研究图像的相似性来解决目前的问题。

图像相等的严格判别法

比较两个图片是否相等,有很多方法,最直观的,也最容易想到的算法就是遍历两个图片的每一个像素,最终求差来得到两个图片是否相等。

使用OpenCV和Python语言实现如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
def compare_img_default(img1, img2):
"""
Strictly compare whether two pictures are equal
Attention: Even just a little tiny bit different (like 1px dot), will return false.

:param img1: img1 in MAT format(img1 = cv2.imread(image1))
:param img2: img2 in MAT format(img2 = cv2.imread(image2))
:return: true for equal or false for not equal
"""
difference = cv.subtract(img1, img2)
result = not np.any(difference)

return result

这种方式的优点是速度很快,比较精度特别高,但是如果两个图片稍微有一点不同,哪怕只是一个像素的差距,都会返回False。

因此,该算法的适用性并不广泛,除非你的需求就是要判断两张图片严格相等,但是多数情况下,我们需求都是比较两张图片是否相似。所以,接下来,我们来看看市面上主流的图像相似度的判别算法。

图像相似的判别法

图像相似也有很多判别法,我没有去尝试每一种方法,但是基本上所有的方法都了解了一遍,在这里总结一下主流的算法,同时也是巩固一下。

直方图比较法

直方图比较法是一个比较基础,也比较简单快捷的一种办法,目前我就是使用这个方法作为项目的主力相似性判别法。

直方图比较的原理是,将所要比较的两幅图片的直方图数据,然后再将直方图数据归一化之后方便比较,最终得到一个相似指数,通过设定相似指数的边界,我们可以得到是否是同一张图片。

这里可能涉及到一个直方图匹配的概念,但是我们其实用不到直方图匹配,直方图匹配的概念是:

直方图规定化(直方图匹配)是将变换过程加以控制,能够修正直方图的形状,或得到具有指定直方图的输出图像。有选择地增强某个灰度范围内的对比度或使图像灰度值满足某种特定的分布

这个在图像处理中会涉及到,目前图像比较还没有涉及到,所以不做过多深入。

下面,用OpenCV和Python实现如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def compare_img_hist(img1, img2):
"""
Compare the similarity of two pictures using histogram(直方图)
Attention: this is a comparision of similarity, using histogram to calculate

For example:
1. img1 and img2 are both 720P .PNG file,
and if compare with img1, img2 only add a black dot(about 9*9px),
the result will be 0.999999999953

:param img1: img1 in MAT format(img1 = cv2.imread(image1))
:param img2: img2 in MAT format(img2 = cv2.imread(image2))
:return: the similarity of two pictures
"""
# Get the histogram data of image 1, then using normalize the picture for better compare
img1_hist = cv.calcHist([img1], [1], None, [256], [0, 256])
img1_hist = cv.normalize(img1_hist, img1_hist, 0, 1, cv.NORM_MINMAX, -1)

img2_hist = cv.calcHist([img2], [1], None, [256], [0, 256])
img2_hist = cv.normalize(img2_hist, img2_hist, 0, 1, cv.NORM_MINMAX, -1)

similarity = cv.compareHist(img1_hist, img2_hist, 0)

return similarity

直方图算法运行速度很快,也是比较图片相似度算法中很受欢迎的算法,如果你的项目中,需要比较有着极高相似度的图片,而且你需要将这种具有极高相似度的图片归为同一个图片,那么就选用直方图算法吧!

感知哈希算法

感知哈希算法(pHash,全拼:Perceptual hash algorithm)是哈希算法的一种,哈希算法还包括平均值哈希算法(aHash),差异值哈希算法(dHash),经过对比之后,最终决定采用pHash算法来作为辅助相似性判别法。

pHash简单来说,是通过感知哈希算法对每张图片生成一个“指纹”字符串,然后通过比较“指纹”字符串的距离(通常采用汉明距离,Hamming distance,两个等长字符串之间的汉明距离,是两个字符串对应位置的不同字符的个数),这个距离越小,代表两个图片越相似,一般的,我们有下面规则:

1
2
3
Hamming distance = 0  -> particular like
Hamming distance < 5 -> very like
hamming distance > 10 -> different picture

关于aHash, pHash, dHash的区别,我总结如下:

  • aHash:平均值哈希。转灰度压缩之后计算均值,最终通过像素比较得出哈希值,速度很快,但敏感度很高,稍有变化就会极大影响判定结果,精准度较差。因此比较适用于缩略图比较,最常用的就是以图搜图。
  • pHash:感知哈希。在均值哈希基础上加入DCT(离散余弦变化,下面也会涉及,这里不展开),两次DCT就可以很好的将图像按照频度分开,取左上角高能低频信息做均值哈希,因此,精确度很高,但是速度方面较差一些。
    Opencv实测速度比平均哈希慢大概200ms~700ms左右(我自己的开发机,不同机器,不同版本可能结果也会不同)。相比较aHash,pHash更加适合用于缩略图比较,也非常适合比较两个近似图片是否相等。
    比如你所要比较的两张图片就只有一个button有变化,其余的都没有变化,采用严格的aHash很有可能就得到错误的结果,这种情况就可以放心大胆的采用pHash算法进行比较。实际上,这个场景就是我们项目中实际碰到的,最终也是通过pHash来解决的。
  • dHash:差异值哈希。转灰度压缩之后,比较相邻像素之间差异。
    假设有10×10的图像,每行10个像素,就会产生9个差异值,一共10行,就一共有9×10=90个差异值。最终生成哈希值即指纹。
    速度上来说,介于aHash和pHash之间,精准度同样也介于aHash和pHash之间。所以前两种哈希的适用场景,dHash也完全适用,如果你想要一个精准度较高而且速度比较快的算法,那就选择dHash吧!

我们首先来简单的了解一下均值哈希算法,其原理如下(来源):

1. Reduce size. The fastest way to remove high frequencies and detail is to shrink the image. In this case, shrink it to 8x8 so that there are 64 total pixels. Don’t bother keeping the aspect ratio, just crush it down to fit an 8x8 square. This way, the hash will match any variation of the image, regardless of scale or aspect ratio.
2. Reduce color. The tiny 8x8 picture is converted to a grayscale. This changes the hash from 64 pixels (64 red, 64 green, and 64 blue) to 64 total colors.
3. Average the colors. Compute the mean value of the 64 colors.
4. Compute the bits. This is the fun part. Each bit is simply set based on whether the color value is above or below the mean.
5. Construct the hash. Set the 64 bits into a 64-bit integer. The order does not matter, just as long as you are consistent. (I set the bits from left to right, top to bottom using big-endian.)
The resulting hash won’t change if the image is scaled or the aspect ratio changes. Increasing or decreasing the brightness or contrast, or even altering the colors won’t dramatically change the hash value. And best of all: this is FAST!

pHash在均值哈希算法的基础上,加入了离散余弦变换(DCT,Discrete cosine transform),数学不精通的同学可能这里就有点着急了,简单解释一下离散余弦变化,其作用是为了减少图像的冗余和相关性,是一种图像压缩算法,将图像从像素域变换到频率域。详细请前往

我们用步骤来描述如何将DCT加入到pHash中:

  1. 缩小尺寸:pHash以小图片开始,但图片大于8×8,32×32是最好的(我这里选用的是32×32的,计算量完全OK)。这样做的目的是简化了DCT的计算,而不是减小频率。
  2. 简化色彩(灰度化):将图片转化成灰度图像,一个只由0~255整数来表示的灰度图,由此进一步简化计算量。
  3. 计算DCT:计算图片的DCT变换,得到32×32的DCT系数矩阵。
  4. 缩小DCT:虽然DCT的结果是32×32大小的矩阵,但我们只要保留左上角的8×8的矩阵,这部分呈现了图片中的最低频率。
  5. 计算平均值:如同均值哈希一样,计算DCT的均值。
  6. 计算hash值:这是最主要的一步,根据8×8的DCT矩阵,设置0或1的64位的hash值,大于等于DCT均值的设为”1”,小于DCT均值的设为“0”。组合在一起,就构成了一个64位的整数,这就是这张图片的指纹。

基于以上步骤,我们实现了一个简单的pHash算法,同样,使用OpenCV和Python来实现:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
def compare_img_p_hash(img1, img2):
"""
Get the similarity of two pictures via pHash
Generally, when:
ham_dist == 0 -> particularly like
ham_dist < 5 -> very like
ham_dist > 10 -> different image

Attention: this is not accurate compare_img_hist() method, so use hist() method to auxiliary comparision.
This method is always used for graphical search applications, such as Google Image(Use photo to search photo)

:param img1:
:param img2:
:return:
"""
hash_img1 = get_img_p_hash(img1)
hash_img2 = get_img_p_hash(img2)

return ham_dist(hash_img1, hash_img2)


def get_img_p_hash(img):
"""
Get the pHash value of the image, pHash : Perceptual hash algorithm(感知哈希算法)

:param img: img in MAT format(img = cv2.imread(image))
:return: pHash value
"""
hash_len = 32

# GET Gray image
gray_img = cv.cvtColor(img, cv.COLOR_RGB2GRAY)

# Resize image, use the different way to get the best result
resize_gray_img = cv.resize(gray_img, (hash_len, hash_len), cv.INTER_AREA)
# resize_gray_img = cv.resize(gray_img, (hash_len, hash_len), cv.INTER_LANCZOS4)
# resize_gray_img = cv.resize(gray_img, (hash_len, hash_len), cv.INTER_LINEAR)
# resize_gray_img = cv.resize(gray_img, (hash_len, hash_len), cv.INTER_NEAREST)
# resize_gray_img = cv.resize(gray_img, (hash_len, hash_len), cv.INTER_CUBIC)

# Change the int of image to float, for better DCT
h, w = resize_gray_img.shape[:2]
vis0 = np.zeros((h, w), np.float32)
vis0[:h, :w] = resize_gray_img

# DCT: Discrete cosine transform(离散余弦变换)
vis1 = cv.dct(cv.dct(vis0))
vis1.resize(hash_len, hash_len)
img_list = vis1.flatten()

# Calculate the avg value
avg = sum(img_list) * 1. / len(img_list)
avg_list = []
for i in img_list:
if i < avg:
tmp = '0'
else:
tmp = '1'
avg_list.append(tmp)

# Calculate the hash value
p_hash_str = ''
for x in range(0, hash_len * hash_len, 4):
p_hash_str += '%x' % int(''.join(avg_list[x:x + 4]), 2)
return p_hash_str


def ham_dist(x, y):
"""
Get the hamming distance of two values.
hamming distance(汉明距)
:param x:
:param y:
:return: the hamming distance
"""
assert len(x) == len(y)
return sum([ch1 != ch2 for ch1, ch2 in zip(x, y)])

自认为代码中注释已经非常友好了,所以对于算法步骤不做过多说明了,开箱可用!

其他相似性比较算法

除了上述直方图和哈希算法之外,还有其他的一些算法,我列举如下:

  1. 内容特征法
    内容特征法和直方图比较法比较相似,只不过是从比较图像内容入手的,通常的做法是压缩灰度化之后来比较前景色和背景色的反差。
    通过设定一个值,来区分前景色和背景色,我们前面简单说过,灰度化就是用0~255来表示所有的像素,我们设定一个值,比如说130,大于130的,我们称之为背景色,反之,称之为前景色。
    最终,我们通过一个公式(被称为大津法,Otsu’s method,维基百科):
    我们记:
    前景色占比 F=前景色像素数/总体像素数
    背景色占比 B=背景色像素数/总体像素数
    前景色平均值和方差 F1,F2
    背景色平均值和方差 B1,B2

    则:
    类内差异 = F(F2^2) + B(B2^2)
    类间差异 = FB(F1-B1)^2
    使得前景色和背景色的“类内差异最小”,得到一个阈值,将阈值和每一个像素比较之后,就得到了该图片的[0-1]特征矩阵,通过比较两个不同图片的特征矩阵即可得到图片之间的相似度。
    该算法也除了用于图片相似度之外,也常用于找不同,找不同的精确度很高,速度相较于直方图,差距不明显,如果你有找不同的需求,可以使用这个算法来做,但是如果你有模糊匹配的需求,该算法就非常不合适了。
    该算法也可用于媒体处理,如视频跟踪,运动检测等。
  2. 关键点匹配
    或者叫特征点匹配,使用特征描述子来做角点检测,特征描述子通常是一个向量,两个向量之间的距离就可以用来比较其相似度。
  3. SSIM(structural similarity,结构相似性)
    这里摘抄一段维基百科关于PSNR的定义:
    The structural similarity** (SSIM) index is a method for predicting the perceived quality of digital television and cinematic pictures, as well as other kinds of digital images and videos. The basic model was developed in the Laboratory for Image and Video Engineering(LIVE) at The University of Texas at Austin and further developed jointly with the Laboratory for Computational Vision (LCV) at New York University. Further variants of the model have been developed in the Image and Visual Computing Laboratory at University of Waterloo and have been commercially marketed.
    SSIM作为一种全参考的图像相似度算法,从亮度、对比度和结构三方面来比较图像相似度,大名鼎鼎,使用广泛。
    初期我也将其运用到项目中,但是实际运行效果发现,耗时有点长,而且结果还没有直方图来的简单直接,给人一种杀鸡焉用牛刀的感觉,所以最终还是放弃了。

结语

文中列出的是主流的最常使用的一些算法,还有一些其他算法,没有列出,是因为在了解过程中,根据需求最终决定不去尝试,不然试错成本太高,有一些明显不合适的算法就简单了解就可以了。

最后,不是最好的就是最合适的,这里建议以项目驱动,满足项目需求即可。


图像相似度算法及其适用场景分析
http://csgituser.github.io/2023/03/08/【图像处理】图像相似度算法探究及其适用场景分析/
Author
Museum
Posted on
March 8, 2023
Licensed under