个人技术分享

opencv-2.4.13.2 cmake 编译要点

cmake 2.8.4 Index of /files/home/developer/third/cmake-2.8.4/install/bin/cmake .. -DCMAKE_INSTALL_PREFIX=/home/developer/third/opencv-2.4.13.2/build/3559 -DWITH_CUDA=OFF -DENABLE_PRECOMPILED_HEADERS=OFF -DCMAKE_TOOLCHAIN_FILE=../platforms/linux/arch32-gn

故障诊断 | 基于 KAN、KAN卷积的轴承故障诊断模型

数据集——高分辨率图像分割成大小均匀图像（附Python代码）

将高分辨率图像分割成大小均匀的图像用于训练，可以提高训练效率，提高模型性能，并提供更大的灵活性。

【OpenCV 基础知识 13】高斯平滑处理图像

函数 cvSmooth 可使用简单模糊、简单无缩放变换的模糊、中值模糊、高斯模糊、双边滤波的任何一种方法平滑图像。没有缩放的图像平滑仅支持单通道图像，并且支持8位到16位的转换（与cvSobel和cvLaplace相似）和32位浮点数到32位浮点数的变换格式。简单模糊和高斯模糊支持 1- 或 3-通道， 8-比特和 32-比特浮点图像。这两种方法可以（in-place）方式处理图像。中值和双向滤波工作于 1- 或 3-通道， 8-位图像，但是不能以 in-place 方式处理图像。

matlab 使用Otsu方法计算图像全局阈值

matlab 最大类间方差法计算二值化阈值并进行二值化

[数据集][目标检测]红外兔子检测数据集VOC+YOLO格式96张1类别

数据集格式：Pascal VOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)特别声明：本数据集不对训练的模型或者权重文件精度作任何保证，数据集只提供准确且合理标注。图片数量(jpg文件个数)：96。标注数量(xml文件个数)：96。标注数量(txt文件个数)：96。使用标注工具：labelImg。标注类别名称:["rat"]标注规则：对类别进行画矩形框。rat 框数 = 378。

【论文阅读】 YOLOv10: Real-Time End-to-End Object Detection

在过去几年中，YOLOs 因其在计算成本和检测性能之间的有效平衡而成为实时物体检测领域的主流模式。研究人员对 YOLOs 的架构设计、优化目标、数据增强策略等进行了探索，并取得了显著进展。然而，后处理对非最大抑制（NMS）的依赖阻碍了 YOLO 的端到端部署，并对推理延迟产生了不利影响。此外，YOLOs 中各种组件的设计缺乏全面彻底的检查，导致明显的计算冗余，限制了模型的能力。这使得效率不尽如人意，性能还有很大的提升空间。在这项工作中，我们旨在从后处理和模型架构两方面进一步推进 YOLO 的性能-效率边界。

【python】OpenCV—Tracking（10.2）

借助 BackgroundSubtractor 类，可检测阴影，用阈值排除阴影，从而关注实际特征。做 gif 的时候只设置了播放一次，重复播放需要刷新。Opencv 有三种背景分割器。

猫狗分类识别⑤二值化

它接受四个参数：输入图像、阈值、最大值（通常设置为255，表示白色）和二值化类型（在这个例子中使用cv2.THRESH_BINARY）。函数返回两个值：第一个是用于二值化的实际阈值（在这个例子中我们不需要，所以使用_来忽略它），第二个是二值化后的图像。在这个脚本中，我们假设去噪后的图像已经是灰度图像。可以使用cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)来实现。最后，使用cv2.imwrite函数将二值化后的图像保存到指定的文件夹中。

【论文阅读】 YOLOv10: Real-Time End-to-End Object Detection

在过去几年中，YOLOs 因其在计算成本和检测性能之间的有效平衡而成为实时物体检测领域的主流模式。研究人员对 YOLOs 的架构设计、优化目标、数据增强策略等进行了探索，并取得了显著进展。然而，后处理对非最大抑制（NMS）的依赖阻碍了 YOLO 的端到端部署，并对推理延迟产生了不利影响。此外，YOLOs 中各种组件的设计缺乏全面彻底的检查，导致明显的计算冗余，限制了模型的能力。这使得效率不尽如人意，性能还有很大的提升空间。在这项工作中，我们旨在从后处理和模型架构两方面进一步推进 YOLO 的性能-效率边界。

【python脚本】修改目标检测的xml标签(VOC)类别名

在集成多个数据集一同训练时，可能会存在不同数据集针对同一种目标有不同的类名，可以通过python脚本修改数据内的类名映射，实现统一数据集标签名的目的。label_dict：标签类名的映射字典，key值为修改前的类名，value值为修改后的类名。new_label_dir：输出的新xml标签的目录。label_dict[‘head’] = ‘头’org_label_dir：xml标签的目录。如图，修改标签类别名成功！

YOLOv10：实时端到端目标检测

在过去的几年里，YOLO因其在计算成本和检测性能之间的有效平衡而成为实时目标检测领域的主要范例。研究人员对 YOLO 的架构设计、优化目标、数据增强策略等进行了探索，取得了显着进展。然而，后处理对非极大值抑制（NMS）的依赖阻碍了 YOLO 的端到端部署，并对推理延迟产生不利影响。此外，YOLO中各个组件的设计缺乏全面彻底的检查，导致明显的计算冗余并限制了模型的能力。它提供了次优的效率，以及相当大的性能改进潜力。在这项工作中，我们的目标是从后处理和模型架构方面进一步提升 YOLO 的性能效率边界。

【OpenCV】图形绘制与填充

介绍了绘制、填充图像的API。也介绍了RNG类用来生成随机数。

计算机视觉与深度学习实战：以Python为工具，基于帧间差法进行视频目标检测

计算机视觉是一门研究如何使机器从数字图像或视频中提取、分析和理解有用信息的学科。它涉及图像处理、计算机图形学、人工智能等多个领域的知识。通过计算机视觉技术，我们可以实现图像的识别、分类、目标检测等功能。本文介绍了计算机视觉与深度学习的基本概念和原理，并以Python为工具，基于帧间差分法实现了视频目标检测。帧间差分法具有算法实现简单、程序设计复杂度低、对光线等场景变化不太敏感等优点，因此在实际应用中得到了广泛的应用。然而，帧间差分法也存在一些局限性，如对于缓慢移动或静止的物体检测效果不佳。

【计算机视觉 Mamba】MambaOut: Do We Really Need Mamba for Vision?

Mamba 是一种具有类似 RNN 的状态空间模型（SSM）令牌混合器的架构，最近被引入以解决注意力机制的二次复杂性问题，随后被应用于视觉任务。然而，与卷积模型和基于注意力的模型相比，Mamba 在视觉方面的表现往往不尽如人意。Mamba 非常适合具有长序列和自回归特征的任务。对于视觉任务，由于图像分类不符合这两种特征，因此我们假设 Mamba 不需要用于该任务；检测和分割任务也不是自回归任务，但它们符合长序列特征，因此我们认为仍然值得探索 Mamba 在这些任务中的潜力。

【会议征稿，SPIE独立出版】第五届计算机视觉和数据挖掘国际学术会议（ICCVDM 2024）

【SPIE独立出版】第五届计算机视觉和数据挖掘国际学术会议（ICCVDM 2024），2024 5th International Conference on Computer Vision and Data Mining

opencv实现图片的膨胀腐蚀

在OpenCV中，膨胀和腐蚀是两种基本的图像处理操作，通常用于二值图像中以提取特定的特征。它们是基于图像的形态学操作，使用一个称为结构元素或核的模板来改变图像的形状。cv2.erode函数则用于进行腐蚀操作，同样通过迭代次数参数来指定腐蚀的次数。然后我们定义了一个5x5的结构元素（核），这是一个常用的选择，实际上可以根据需要选择任何大小的核。膨胀后的图像将使图像中的白色区域（前景）扩张，而腐蚀后的图像将使图像中的白色区域缩小。最后，我们将膨胀和腐蚀后的图像保存到文件中。

使用ResNet-50训练自己的数据集（花的种类）

详细解释以及全部代码

opencv读取图片并将图片二值化

在这段代码中，我们首先读取了一张灰度图像。然后，我们使用cv2.threshold函数和cv2.THRESH_OTSU阈值方法来对图像进行二值化处理。cv2.THRESH_OTSU会自动计算一个阈值，使得图像中的两个类别（前景和背景）之间的方差最大化。要使用OpenCV读取图片并将图片二值化，您可以使用cv2.imread函数来读取图片，并使用cv2.threshold函数来将图片二值化。二值化后的图像将被显示，并可以通过按下’q’键来关闭图像窗口。最后，我们将二值化后的图像保存到文件中。

双边滤波去雾算法

本文介绍了双边滤波图像去雾算法，旨在消除雾霾对图像质量的影响，能够保留边缘信息并去除噪声，有效提高图像的清晰度和对比度。双边滤波（Bilateral Filtering）是一种用于图像处理的非线性滤波方法，它能够在平滑图像的同时保留边缘细节，并结合了空间域和强度域的信息，以避免在平滑噪声的同时模糊图像的边缘。首先对图像进行频域变换，将原始图像分解为高频成分和低频成分。然后分别对高频成分和低频成分应用双边滤波算法，以去除噪声和增强边缘信息。最后将处理后的高频成分和低频成分进行逆频域变换，得到去雾后的图像。