使用机器学习进行图像分类:来龙去脉
Posted: Thu Dec 26, 2024 6:21 am
教会计算机理解它们所看到的东西是让所有计算机视觉工程师保持警惕的主题。尽管近年来图像识别领域取得了很大进展,但仍然存在许多缺失的拼图,这些拼图应该拼凑起来,形成一幅完整而清晰的图景,说明如何学习机器来理解它们所看到的内容。
长期以来,图像分类不被认为是一个统计问题,直到机器学习领域以神经网络,特别是卷积神经网络(CNN)的名义出现了部分解决方案。 CNN 是一种特殊类型的人工神经网络,可在图像分类任务中提供类似人类的结果。
本文解释了人脑如何重建视觉世界、机器如何学习理解图像以及图像分类的应用有哪些。
图像识别:有那么难吗?
图像识别是识别图像所代表的内容的过程。
对于人类来说,解释视觉世界很容易。当人看到某物时,他对它是什么有内在的理解。在大多数情况下,没有必要有意识地研究物体来理解它。
然而,对于计算机来说,这是一项艰巨的任务,因为它们只能处理数字。例如,对于计算机来说,阿尔伯特·爱因斯坦额头上的一个 3x3 方点是一个三维矩阵,其中每个维度代表一种原色:红色、绿色和蓝色。
尽管人类可以在几分之一秒内解读图像,但复杂的认知过程发生在大脑的视觉皮层中。
视觉皮层分为多层(V1-V8),它处理来自眼睛的视觉信息。当感受野中存在刺激时,其表示首先到达 V1 层,或者换句话说,V1 层区域中的神经元首先放电。该层是一个地图,它保留了世界中刺激的空间信息并检测其边缘。 V1 层与 V2 层强连接,V2 层反过来参与形状、方向、颜色和其他低级特征的辨别。更高层次的视觉特征涉及大脑对图像的上下文和关系的理解,并且仅在更高层中被感知,例如V6-V8。
假设感知到的刺激是你的父亲。物体本身的 阿根廷电报数据 检测是在 V1 层完成的。然而,语义信息仅在 V6-V8 层中被感知。
需要强调的是,随着时间的推移,研究带来越来越多的发现,每一层负责的内容几乎总是与争议相关。然而,事实是层越高,表示就越抽象。
除了这种高级架构之外,在微观层面上,神经力学已被应用于模拟视觉皮层各层的过程。特别是,每个神经元接收来自树突的输入,并且根据应用于其输入的复杂非线性,如果非线性输入的总和超过某个阈值,则每个神经元都会激发。虽然这个解释非常简单,但足以用于研究发明第一个人工神经网络。
受到人类视觉系统的启发,工程师尝试用机器复制这个过程。为了使计算机能够理解物体,有必要创建一个能够仅使用数字操作从视觉“刺激”中提取高级特征的系统。这就是卷积神经网络发挥作用的地方。当给出足够的干净、定义明确的数据时,CNN 可以为数据所包含的每个类别提取常见的高级特征。
长期以来,图像分类不被认为是一个统计问题,直到机器学习领域以神经网络,特别是卷积神经网络(CNN)的名义出现了部分解决方案。 CNN 是一种特殊类型的人工神经网络,可在图像分类任务中提供类似人类的结果。
本文解释了人脑如何重建视觉世界、机器如何学习理解图像以及图像分类的应用有哪些。
图像识别:有那么难吗?
图像识别是识别图像所代表的内容的过程。
对于人类来说,解释视觉世界很容易。当人看到某物时,他对它是什么有内在的理解。在大多数情况下,没有必要有意识地研究物体来理解它。
然而,对于计算机来说,这是一项艰巨的任务,因为它们只能处理数字。例如,对于计算机来说,阿尔伯特·爱因斯坦额头上的一个 3x3 方点是一个三维矩阵,其中每个维度代表一种原色:红色、绿色和蓝色。
尽管人类可以在几分之一秒内解读图像,但复杂的认知过程发生在大脑的视觉皮层中。
视觉皮层分为多层(V1-V8),它处理来自眼睛的视觉信息。当感受野中存在刺激时,其表示首先到达 V1 层,或者换句话说,V1 层区域中的神经元首先放电。该层是一个地图,它保留了世界中刺激的空间信息并检测其边缘。 V1 层与 V2 层强连接,V2 层反过来参与形状、方向、颜色和其他低级特征的辨别。更高层次的视觉特征涉及大脑对图像的上下文和关系的理解,并且仅在更高层中被感知,例如V6-V8。
假设感知到的刺激是你的父亲。物体本身的 阿根廷电报数据 检测是在 V1 层完成的。然而,语义信息仅在 V6-V8 层中被感知。
需要强调的是,随着时间的推移,研究带来越来越多的发现,每一层负责的内容几乎总是与争议相关。然而,事实是层越高,表示就越抽象。
除了这种高级架构之外,在微观层面上,神经力学已被应用于模拟视觉皮层各层的过程。特别是,每个神经元接收来自树突的输入,并且根据应用于其输入的复杂非线性,如果非线性输入的总和超过某个阈值,则每个神经元都会激发。虽然这个解释非常简单,但足以用于研究发明第一个人工神经网络。
受到人类视觉系统的启发,工程师尝试用机器复制这个过程。为了使计算机能够理解物体,有必要创建一个能够仅使用数字操作从视觉“刺激”中提取高级特征的系统。这就是卷积神经网络发挥作用的地方。当给出足够的干净、定义明确的数据时,CNN 可以为数据所包含的每个类别提取常见的高级特征。