文献:数字图像处理基础:Matlab中的示例实用方法外文翻译资料

 2022-08-14 15:04:53

英文文献及翻译

From:

Fundamentals of Digital Image Processing:A Practical Approach with Examples in Matlab

Author:

Chris Solomon ,School of Physical Sciences, University of Kent, Canterbury, UK

Toby Breckon ,School of Engineering, Cranfield University, Bedfordshire, UK

1.RGB

RGB (or true color) images are 3-D arrays that we may consider conceptually as three distinct 2-D planes, one corresponding to each of the three red (R), green (G) and blue (B) color channels. RGB is the most common color space used for digital image representation a sit conveniently corresponds to the three primary colors which are mixed for display on a monitor or similar device.

We can easily separate and view the red, green and blue components of a true-color image, as shown in Figure 1.6. It is important to note that the colors typically present in a real image are nearly always a blend of color components from all three channels. A common misconception is that, for example, items that are perceived as blue will only appear in the blue channel and so forth. Whilst items perceived as blue will certainly appear brightest in the blue channel (i.e. they will contain more blue light than the other colors) they will also have milder components of red and green.

If we consider all the colors that can be represented with in the RGB representation, then we appreciate that the RGB color space is essentially a3-Dcolour space(cube)with axes R, G and B (Figure 1.7). Each axis has the same range 0!1 (this is scaled to 0–255 for the common1bytepercolourchannel,24-bitimagerepresentation). The color black occupies the origin of the cube (positioneth;0;0;0THORN;), corresponding to the absence of all three colors; white occupies the opposite corner(positioneth;1;1;1THORN;), indicating the maximum amount of all three colors. All other colors in the spectrum lie within this cube.

The RGB color space is based upon the portion of the electromagnetic spectrum visible to humans (i.e. the continuous range of wavelengths in the approximate range 400–700nm). The human eye has three different types of color receptor over which it has limited (and no uniform) absorbency for each of the red, green and blue wave lengths. This is why, as we will see later, the color to grey-scale transform uses a nonlinear combination of the RGB channels.

In digital image processing we use a simplified RGB color model (based on the CIE color standard of 1931) that is optimized and standardized towards graphical displays. However, the primary problem with RGB is that it is perceptually nonlinear. By this we mean that moving in a given direction in the RGB color cube (Figure 1.7) does not necessarily produce a color that is perceptually consistent with the change in each of the channels. For example, starting at white and subtracting the blue component produces yellow; similarly, starting at red and adding the blue component produces pink. For this reason, RGB space is inherently difficult for humans to work with and reason about because it is not related to the natural way we perceive colors. As an alternative we may use perceptual color representations such as HSV.

We can convert from an RGB color space to a grey-scale image using a simple transform. Grey-scale conversion is the initial step in many image analysis algorithms, as it essentially simples (i.e. reduces) the amount of information in the image. Although a grey-scale image contains less information than a color image, the majority of important, feature related information is maintained, such as edges, regions, blobs, junctions and so on. Feature detection and processing algorithms then typically operate on the converted greyscale version of the image. As we can see from Figure 1.8, it is still possible to distinguish between the red and green apples in grey-scale. An RGB color image, Color, is converted to grey scale, Igrey-scale, using the following transformation:

Igrey-scale(n,m)=alpha;Color(n,m,r) beta;Color (n,m,g) gamma;Color (n,m,b)

where (n;m) indexes an individual pixel within the grey-scale image and (n;m;c) the individualchannelatpixellocationeth;n;mTHORN;inthecolourimageforchannelcintheredr,blue b and green g image channels. As is apparent from Equation (1.1), the grey-scale image is essentially a weighted sum of the red, green and blue color channels. The weighting coefcients(a,bandg)aresetinproportiontotheperceptualresponseofthehumaneyeto each of the red, green and blue color channels and a standardized weighting ensures uniformity(NTSC television standard, a=0.2989,b=0.5870 and g=0.1140).The human eye is naturally more sensitive to red and green light; hence, these colors are given higher weightings to ensure that the relative intensity balance in the resulting grey-scale image is similar to that of the RGB color image. An example of performing a grey-scale conversion in Matlab is given in Example 1.6.

RGB to grey-scale conversion is a noninvertible image transform: the true color information that is lost in the conversion cannot be readily recovered.

2.Enhancement

The main goal of image enhancement is to process an image in some way so as to render it more visually acceptable or pleasing. The removal of noise, the sharpening of image edges and the lsquo;soft focusrsquo; (blurring) effect so often favored in romantic photographs are all examples of popular enhancement techniques. These and other enhancement operations can be achieved through the process of spatial domain filtering. The term spatial domain is arguably somewhat spurious, but is used to distinguish this procedure from frequency domain procedures(discussedinChapter5).Thus, spatial domain filtering simply indicates that the filtering process takes place directly on the actual pixels of the image itself.

Therefore, we shall refer simply to filtering in this chapt

剩余内容已隐藏,支付完成后下载完整资料



文献:数字图像处理基础:Matlab中的示例实用方法

一、RGB

RGB(或真彩色)图像是3-D阵列,我们可以在概念上将其视为三个不同的2-D平面,一个平面对应于三个红色(R),绿色(G)和蓝色(B)色彩通道。 RGB是用于数字图像表示的最常见的色彩空间,它很方便地对应于混合在监视器或类似设备上显示的三种原色。

我们可以轻松地分离并查看真彩色图像的红色,绿色和蓝色分量,如图1.6所示。重要的是要注意,真实图像中通常存在的颜色几乎总是来自所有三个通道的颜色成分的混合。常见的误解是,例如,被感知为蓝色的物品只会出现在蓝色通道中,并且此后会一直消失。虽然感觉蓝色的物体肯定会在蓝色通道中显得最亮(即它们将比其他颜色包含更多的蓝色光),但它们也将具有较柔和的红色和绿色成分。

如果我们考虑到可以用RGB表示形式表示的所有颜色,那么我们就会意识到RGB颜色空间基本上由3-D颜色空间(立方体)组成,其中的轴R,G和B(图1.7)。每个轴都具有相同的范围0!1(对于公共1字节每个彩色通道,该比例缩放为0-255,24位图像表示)。黑色占据了多维数据集的原点(位置0; 0; 0,),对应于所有三种颜色的缺失。白色占据相反的角(位置eth;1; 1;1THORN;),指示所有三种颜色的最大数量。光谱中的所有其他颜色都位于该立方体内。RGB色空间基于人类可见的电磁光谱的比例(即波长范围在400-700nm范围内的连续范围)。人眼具有三种不同类型的颜色接收器,在这些颜色接收器上,它们分别对固定的,绿色和蓝色波长具有有限的吸收率(并且吸收率不均匀)。这就是为什么我们将在后面看到,颜色到灰度转换使用RGB通道的非线性组合的原因。

在数字图像处理中,我们使用简化的RGB颜色模型(基于1931年的CIE颜色标准),并针对图形显示进行了优化和标准化。但是,RGB的主要问题是它在感知上是非线性的。这意味着在RGB颜色立方体(图1.7)中沿给定方向移动并不一定会产生与每个通道的变化在感觉上一致的颜色。例如,从白色开始减去蓝色分量会生成黄色;反之,则为黄色。同样,从红色开始并添加蓝色成分会产生粉红色。出于这个原因,RGB空间一直以来都是人类工作和实践的难点,因为它与我们感知颜色的自然方式无关。或者,我们可以使用诸如HSV之类的感知颜色表示。

RGB到灰度图像的转换我们可以使用简单的转换将RGB颜色空间转换为灰度图像。 灰度转换是许多图像分析算法的第一步,因为它本质上可以简化(即减少)图像中的信息量。 尽管灰度图像包含的信息少于彩色图像,但是大多数重要的,与特征相关的信息得以保留,例如边缘,区域,斑点,结点等。 然后,特征检测和处理算法通常对图像的转换灰度版本进行操作。 从图1.8中可以看到,仍然可以区分红色和绿色的苹果。 使用以下转换将RGB彩色图像Color转换为灰度Igrey-scale

Igrey-scale(n,m)=alpha;Color(n,m,r) beta;Color (n,m,g) gamma;Color (n,m,b)

其中(n;m)索引灰度图像中的单个像素,(n; m;c)单个像素在像素位置的位置(n;m)彩色图像中的通道,蓝色b和绿色g图像通道。从等式显而易见,灰度图像本质上是红色,绿色和蓝色通道的加权和。权重系数(a,band)的设置与人眼对每个红色,绿色和蓝色通道的感知响应的比例成比例,并且标准化的权重可确保一致性(NTSC电视标准,a=0.2989,b=0.5870和g=0.1140)。人眼自然对红色和绿色的光更敏感;因此,对这些颜色赋予较高的权重,以确保所得灰度图像中的相对强度平衡类似于RGB彩色图像。

二、增强

图像增强的主要目标是以某种方式处理图像,以使其在视觉上更可接受或令人愉悦。消除噪点,图像边缘锐化以及浪漫照片中经常使用的“柔焦”(模糊)效果都是流行的增强技术的例子。这些和其他增强操作可以通过空间域过滤过程来实现。空间域一词可以说是虚假的,但是用来将这一过程与频域过程区分开。因此,空间域滤波暗示着滤波过程直接发生在图像本身的实际像素上。

因此,我们将在本章中仅提及过滤,而不会造成混淆的危险。滤镜以某种特定的方式作用于图像上以更改像素的值,并且通常分为两种类型:线性和非线性。线性滤波器较为常见,但是我们将讨论并给出这两种示例。无论使用哪种特定的过滤器,所有用于空间域过滤的方法都以相同的简单方式运行。图像中的每个像素(在给定时刻考虑的像素称为目标像素)都被连续寻址。目标像素的值将替换为新值,该新值仅取决于目标像素周围指定邻域中的像素值。

主题过滤器可能是最简单的线性过滤器,并且通过对周围的所有像素赋予相等的权重wK来进行操作。权重WK=1/(NM)用于N M邻域,具有平滑图像的效果,将输出图像中的每个像素替换为其N M邻域的平均值。这种加权方案可确保内核中的加权在任何给定的邻域大小上加起来为一。均值滤波器可以用作抑制图像噪声的方法(尽管我们稍后将讨论的中值滤波器通常做得更好)。另一个常见用途是作为初步处理步骤来平滑图像,以使某些后续处理操作更有效。

我们可以看到,均值滤波在消除高斯噪声方面相当有效,但是在高频图像细节(即边缘)的损失上却是有效的。尽管高斯噪声的重要部分已被删除,但在图像中仍然可见。较大内核尺寸将进一步抑制高斯噪声,但会导致图像质量进一步下降。同样明显的是,均值过滤对于消除“盐和胡椒粉”的噪音无效(图4.4b)。在这种情况下,噪声值与邻域中的典型值的较大偏差意味着它们会严重干扰平均值,并且在滤波结果中噪声仍然非常明显。在出现“盐和胡椒粉”噪声的情况下,嘈杂的高/低像素值会在分布中充当异常值。因此,“盐和胡椒”噪声最好使用对统计离群值更强的度量(例如,中值滤波器,第4.4.2节)。

总而言之,均值滤波的主要缺点是:(a)对图像(离群值)中的大噪声偏差不稳健;以及(b)当图像中的跨滤框边缘会引起模糊时,(b)。由于后一个原因,均值滤波器也可以用作一般的低通滤波器。过滤器的一个常见变化(可以部分有效地保留边缘细节)是引入一个阈值,并且仅当像素变化值的幅度低于此阈值时,才用其邻域值替换当前像素值。

三、分割

分割是一种通用的命名过程,图像通过该过程细分为其组成区域或对象。通常,完全自主的分割是计算机视觉系统设计中最困难的任务之一,并且仍然是图像处理和机器视觉研究的活跃领域。分割在图像处理中起着非常重要的作用,因为它通常是至关重要的第一步,必须先成功地采取后续步骤才能进行可能的尝试,例如特征提取,分类,描述等。描述他们?分割的基本目标是将图像划分为互斥的区域,然后我们可以在这些区域上附加有意义的标签。分割后的对象通常被称为前景,而图像的其余部分则是背景。请注意,对于任何给定的图像,我们通常不能说单个的“正确”分割。相反,图像的正确分割在很大程度上取决于我们感兴趣的物体或区域的类型。为了将给定像素分配给一个或另一个区域,给定像素必须与其邻居和图像中的其他像素具有什么关系?这实际上是图像分段中的中心问题,通常通过以下两种基本途径之一来解决:

1、边缘/边界方法这种方法基于对边缘的检测,作为识别区域之间边界的一种手段。因此,它寻找像素组之间的明显差异。

2、基于区域的方法此方法根据像素的相互相似程度将像素分配给给定区域。

在最基本的分割技术(强度阈值)中,分割仅用于单个像素的绝对强度。但是,要成功进行细分,通常需要更复杂的属性和功能。

在我们对显式技术的讨论中,它提供了一种有用的(如果有所简化)的观点来认识到图像中存在三个基本属性/质量,我们可以在对图像进行分割的尝试中加以利用。

(1)在某些情况下,颜色是区分对象和背景的最简单,最明显的方法。可以将具有某些颜色属性(即仅限于颜色空间的特定区域)的对象与背景分离。例如,从包括蓝色桌布的背景中分割橙色是一项琐碎的任务。

(2)纹理是图像处理中有点松散的概念。它没有单一的定义,但是仍然与我们日常使用的“粗糙”或“光滑”物体的概念相当吻合。因此,纹理是指整个空间尺度上图像强度或颜色值的“典型”空间变化。许多纹理度量基于图像在某个邻域/空间尺度上强度的方差或其他统计矩的计算。我们在这里使用它是非常笼统的意义。

(3)物体序列的运动可以得到很好的提示。当它在静止的背景下放置时,简单的逐帧减法技术通常足以产生运动物体的精确轮廓。

总而言之,大多数分割程序都将使用和组合有关颜色,纹理和运动等多个属性之一的信息。表10.1总结了一些简单的概念示例和针对细分问题的可能方法。表10.1暗示着可能的方法是什么?(不希望):(我们希望)空中的飞机正在运动。它的颜色可能与天空截然不同。纹理不太可能是一种好的方法,因为飞机(作为人造物体)往往具有相当光滑的纹理-至少在大多数天气情况下,天空也是如此。当然可以使用某种形式的形状分析或测量,但是在这种特定情况下往往会显得多余。当然,这些评论是非常临时的(并且可能

实际上在某些特定情况下是不准确的),但它们旨在说明仔细考虑最有可能取得成功的方法的重要性。我们将以最简单的方法即强度阈值开始讨论分割技术。

文献:光学识别符

作者:Ravina Mithe, Supriya Indalkar, Nilam Divekar

  1. OCR技术简介

OCR是光学字符识别的首字母缩写。该技术允许通过光学机制自动识别字符。对于人类来说,我们的眼睛是光学机制。眼睛看到的图像输入到大脑。每个人对这些输入的理解能力因许多因素而异[2]。 OCR是一项功能类似于人类的阅读能力的技术。尽管OCR无法与人类阅读能力竞争。

大多数字符识别程序将使用扫描仪或数码相机和计算机软件通过输入图像进行识别。计算机和扫描仪的空间大小存在问题。如果没有扫描仪和数码相机,则会发生硬件问题。为了克服计算机占据较大空间的局限性,提出了一种基于android手机的字符识别系统[4]。 OCR是一项使您能够将不同类型的文档(例如,扫描的纸张文档,PDF文件或数码相机捕获的图像)转换为可编辑和可搜索的数据的技术。数码相机捕获的图像与扫描的文档或图像不同。它们通常具有诸如边缘变形和光线昏暗之类的缺陷,这使得大多数OCR应用程序难以正确识别文本。我们之所以选择Tesseract,是因为它得到了广泛的认可,其可扩展性和灵活性,其活跃的开发人员社区以及开箱即用的“事实”。要执行字符识别,我们的应用程序必须经过三个重要步骤。第一个是分割,即给定二进制输入图像,以识别各个字形(代表一个或多个字符的基本单位,通常是连续的)。第二步是特征提取,即从每个字形中计算一个数字向量,该数字向量将作为ANN [3]的输入特征。从没有明显的方式获得这些功能的意义上说,此步骤是最困难的。最后的任务是分类。

OCR技术使用三个步骤-扫描打印文档作为光学图像。识别-将这些图像转换为代表已识别单词字母的字符流,最后一个元素涉及访问或存储转换后的文本。转换后的文本称为提取文本。何时,用户首先使用移动相机捕获包含感兴趣文本的图像。图像的指定区域在设备上进行处理,以优化图像以进行传输和输入到OCR。语音合成器用于将提

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[235423],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。