个人技术分享

详解pytorch中循环神经网络（RNN、LSTM、GRU）的维度

首先如果你对不太熟悉，可点击查看。

YOLOv9改进策略 | 添加注意力篇 | 利用YOLO-Face提出的SEAM注意力机制优化物体遮挡检测（附代码 + 修改教程）

本文给大家带来的改进机制是由YOLO-Face提出能够改善物体遮挡检测的注意力机制SEAM，注意力网络模块旨在补偿被遮挡面部的响应损失，通过增强未遮挡面部的响应来实现这一目标，其希望通过学习遮挡面和未遮挡面之间的关系来改善遮挡情况下的损失从而达到改善物体遮挡检测的效果，本文将通过介绍其主要原理后，提供该机制的代码和修改教程，并附上运行的yaml文件和运行代码，小白也可轻松上手。。欢迎大家订阅我的专栏一起学习YOLO！YOLOv9有效涨点专栏-持续复现各种顶会内容-有效涨点-全网改进最全的专栏目录。

每日Attention学习4——Spatial Attention Module

我们设计了空间注意力模块 (SAM)，以有效地完善特征（见图 3）。我们首先沿通道轴使用平均和最大运算，分别生成两个不同的单通道空间图$S_{avg}$和$S_{max}$。然后，我们将它们连接起来，通过3×3卷积和sigmoid函数计算出空间注意力图。空间注意力图$M_{sa}$可以通过元素级相乘从空间维度对特征重新加权。最后，细化后的特征被送入3×3卷积层，将通道压缩至64。

【深度学习】--slowfast视频理解数据集处理pipeline

缺点，这两个都没有排除帧，所谓排除帧，就是所有帧里面都是有目标的。这样的话，就会造成后面的配置文件有个别文件不起作用。谁知道哪两个文件有排除帧，欢迎评论区见。主要是采样目标后还要还原，还原的不对当下不知道，得训练的时候才知道，而且没法和原来的数据做对比。将配置文件需要的文件都裁切成只包含后面这两个文件，这里面坑很多，我是试出来的，所以记录一下。我要是现在linux上打开就好了，光挨个窜这几个文件窜了2天哎！我的这个文件，能够一键生成目标数据集的配套内容。打开视频汇总的文件，挑两个下载。

深度学习之DCGAN

DCGAN，全称是 Deep Convolution Generative Adversarial Networks（深度卷积生成对抗网络），是 Alec Radfor 等人于2015年提出的一种模型。该模型在 Original GAN 的理论基础上，开创性地将 CNN 和 GAN 相结合以实现对图像的处理，并提出了一系列对网络结构的限制以提高网络的稳定性。DCGAN和GAN明显的区别就是，他的生成器使用的是转置卷积层，判别器使用的是卷积层。

【深度学习】【Lora训练0】StabelDiffusion，Lora训练，kohya_ss训练

资源：（1）训练ui kohya_ss：（2）kohya_ss 的docker+ 其他docker。

【基于 PyTorch 的 Python 深度学习】5 机器学习基础（3）

根据吴茂贵《 Python 深度学习基于 PyTorch ( 第 2 版 ) 》撰写的学习笔记，该篇主要介绍了单 GPU 加速和多 GPU 加速，以及使用 GPU 的注意事项。

pytorch中的数据集处理部分data_transforms = { ‘train‘: transforms.Compose([...])...

在PyTorch的深度学习框架中，是一个非常常用的工具，它用于将多个数据转换（或称为“变换”）组合成一个单一的转换流程。这通常用于预处理输入数据，比如图像，以符合模型的训练要求。当你看到这样的代码时，这通常是在一个字典中定义数据预处理流程，其中'train'是键，表示这是用于训练数据的预处理流程。例如，以下是一个常见的图像预处理流程，它使用了在这个例子中，ToTensor()当你使用这样的预处理流程时，你可以确保你的模型在训练时接收到经过适当预处理的数据。

卷积通用模型的剪枝、蒸馏---蒸馏篇--RKD关系蒸馏（以deeplabv3+为例）

本文以deeplabv3+为例，采用RKD蒸馏方法，实现了剪枝前模型对剪之后模型的蒸馏训练。

什么是图片的像素与分辨率？

什么是像素和分辨率

英伟达推出视觉语言模型:VILA

1.情境学习与泛化能力：VILA通过预训练不仅提升了情境学习能力，即模型对新情境的适应性和学习能力，而且还优化了其泛化能力，使模型能在不同的视觉语言任务上展现出色的性能。这个框架旨在通过有效的嵌入对齐和动态神经网络架构，改进语言模型的视觉和文本的学习能力。3.融合层：融合层是VILA模型的核心，它负责整合来自视觉处理单元和语言处理单元的信息，生成统一的、多模态的表示，这对于执行跨模态任务至关重要4.优化策略：包括技术如弹性权重共享和梯度截断，这些策略帮助模型在训练过程中保持稳定，并优化跨模态信息的流动。

Lia 原理

W_rd: driving image通过编码器E 映射成512维向量，然后通过MLP映射成20维视觉向量A_rd，与字典D中的向量结合得到w_rd，字典D包含了代表不同视觉变换的正交基，字典D是训练中学习得到的，每个向量有特定语意。若id不同，则采用relative transfer，即将第一帧与驱动帧（target）的变化差异施加到源帧（source）上，并且要求源人脸和第一帧的pose要相似。X_s (source image )映射到编码Z_sr，通过W_rd方向上的变化，得到新的编码Z_sd。