个人技术分享

神经网络-文本-图像-音频-视频基础知识

文本、图像、音频和视频是数字媒体中的四种基本类型，它们各有不同的组成、单位和基础知识。

AI视频生成技术利用人工智能算法，自动生成视频内容。这些算法通过学习大量的视频数据，能够理解和模拟视频中的视觉和声音元素，从而生成高度逼真的视频内容。AI视频生成技术的核心包括生成对抗网络（GANs）、自回归模型和变分自编码器（VAEs）等。AI视频生成技术正在改变我们制作和消费视频内容的方式。通过深入理解其原理，并不断探索其应用，我们可以更好地利用这一技术，创造出更加丰富和多样的内容。希望这篇文章能为你提供一些启发和帮助，助你在AI视频生成领域取得更多的突破。

【CTF MISC】XCTF GFSJ0317 Hear-with-your-Eyes Writeup（文件提取+音频隐写）

2024-06-10
音视频
144人已看

用眼睛听这段音频。

BT音频方案

2024-06-11
音视频
88人已看

缩写全程释义I2SI2S音频传输接口总线PCM基础音频数据或翻译为音频接口总线HFPHandsfree蓝牙通话协议A2DP蓝牙媒体音频协议。

基于python实现视频和音频长度对齐合成并添加字幕

2024-06-09
音视频
98人已看

音视频对齐，自媒体制作

【车载AI音视频电脑】200万像素迷你一体机

支持IE预览，手机，PAD实时预览，支持电脑客。-内置2路模拟高清, 每路均可达到200万像素。-支持GPS, WIFI, 3G/4G，蓝牙等模块。-内置G-SENSOR模块，异常震动，侧翻，撞击，-整机结构具备良好的防拆、防尘设计，确保TF卡、-设备安装方便简洁，可通过3M胶直接将设备粘。-内置超级电容，异常断电情况下机器自身可工作。外可扩充2路1080P模拟高清摄像头输入。SIM卡、天线和连接口不被破坏。

嵌入式仪器模块:音频综测仪和自动化测试软件

2024-06-09
音视频
90人已看

• 数字音频测试：平板电脑、笔记本电脑、可穿戴设备的 PDM/TDM 测试。• 音频信号分析：幅值、频率、占空比、THD、THD+N 等指标。• 模拟音频测试：耳机、麦克风、扬声器测试，串扰测试。• 支持多种模拟/数字音频信号的输入/输出。• 192 KHz 采样率。

AI办公自动化：根据字幕时间轴批量对视频进行截图

读取文本文档里面的每一行："D:\My.Neighbor.Totoro.1988.720p.BluRay.X264-AMIABLE [PublicHD]\My.Neighbor.Totoro.1988.720p.BluRay.X264-AMIABLE.srt"读取视频："D:\My.Neighbor.Totoro.1988.720p.BluRay.X264-AMIABLE [PublicHD]\My.Neighbor.Totoro.1988.720p.BluRay.X264-AMIABLE.mkv"；

2024抖音短视频实操训练营：如何利用抖音盈利，详细运营课（27节视频课）

2024-06-09
音视频
92人已看

6-第6节如何从抖音上获得内容素材再创作？17-第17节服装穿搭类如何利用抖音获利（1）_1.mp4。18-第18节服装穿搭类如何利用抖音获利（2）_1.mp4。21-第21节同城美食类如何利用抖音获利（2）_1.mp4。22-第22节生鲜类如何利用抖音获利（1）_1.mp4。23-第23节生鲜类如何利用抖音获利（2）_1.mp4。24-第24节生鲜类如何利用抖音获利（3）_1.mp4。25-第25节生鲜类如何利用抖音获利（4）_1.mp4。26-第26节生鲜类如何利用抖音获利（5）_1.mp4。

龙迅LT9611UXC 2 PORT MIPIDSI/CSI转HDMI 2.1，支持音频IIS/SPDIF输入，支持标准4K60HZ输出

DSI支持视频格式： DSC/CSC禁用：RCB：16/18/36位RGB，包装：16位4：2：2：2：2：包装16位RGB4：2：2：2：24位4：2：2：位YCbCr4：2：2：12位YCbCr4：2：2：24位RGB，打包16位YCbCr4：2：2。支持视频格式： DSC/CSC禁用：24/30/36位RGB，16位4：4：2：2：24位YCbCr4：4：4：24位YCbCr4：4：2：0：26位YCbCr4：4：16位YCbCr4：2：2。1时钟通道和1/2/3/4可配置数据通道每端口。

流媒体学习之路(WebRTC)——音频NackTracker优化思路（8）

音频NackTracker的逻辑与视频NackRequest有相似的地方，但是相比多了播放时间以及丢包的等待估计，因此限制更多。在同样的模拟环境下，原NackTracker的逻辑丢包明显。这与音频的特点有关，音频可以合理的丢弃数据并不会明显的影响听感，但是视频少一个数据就无法组成完整的图像。因此WebRTC为了保证实时性，增加了播放时间对比以及丢包参考，如果想要保证Nack的效果与视频一致，那么也需要调整一下它的频率和最大限制。

直播视频组件封装：简化开发，增强功能

2024-06-07
音视频
90人已看

本文介绍了一个封装的 CanvasVideo 组件，旨在提供流畅且稳定的直播视频播放体验。组件支持自动播放、视频截图、重播和放大缩小等功能，未来计划进一步扩展视频格式支持，增强交互体验，并确保跨平台兼容性，以提供更加丰富和个性化的观看体验。

vue3+vite+ts 使用webrtc-streamer播放海康rtsp监控视频

webrtc-streamer 是一个使用简单机制通过 WebRTC 流式传输视频捕获设备和 RTSP 源的项目，它内置了一个小型的 HTTP server 来对 WebRTC需要的相关接口提供支持。相对于ffmpeg+flv.js的方案，延迟降低到了0.4秒左右，画面的加载速度也变快了，切换浏览器标签后也不会暂停画面，并且解决了http1.1的同域名中的并发限制(在谷歌浏览器中可以同时播放6个以上的video)。

视频怎么压缩变小？推荐三个压缩方法

2024-06-05
音视频
94人已看

然而，随着视频质量的提升，视频文件的大小也随之增加，这给存储和分享带来了不小的挑战。以下是几款值得推荐的视频压缩软件，让你的大文件轻松变小！迅捷压缩是一款非常强大的视频压缩软件，支持多种视频格式，并允许用户自定义压缩参数以实现最佳的压缩效果。有四种压缩模式（智能压缩、清晰优先、压缩优先、自定义），用户都可以根据自己的需求进行精确设置，以达到理想的压缩效果。Any Video Converter支持多种视频格式之间的转换，同时提供了丰富的压缩选项，让用户可以根据需要调整视频参数，实现视频文件大小的有效减小。

下载NVIDIA官网的培训视频,生成中文字幕和PPT

想学习NVIDIA官网上的培训视频,但视频没有字幕,桑希望能离线观看,以下的操作步骤。1.m3u8视频的下载及转换。3.ffmpeg字幕的使用。2.whisper的使用。

B站画质补完计划（3）：智能修复让宝藏视频重焕新生

2024-06-11
音视频
156人已看

针对老片中存在的模糊感、卡顿感、毛刺感等画质问题，多媒体实验室的画质团队研发了一套智能修复系统，有效修复了上述画质问题，大幅提升老片观感。

基于OpenCV+QT开发超实用的视频编辑器

视频画面添加水印；视频画面亮度调整；视频画面对比度调整；视频画面旋转；视频画面镜像；视频尺寸调整；视频图像模糊；两路视频融合。Mat类是Opencv中储存图像的一种数据结构。Mat类可以看做是存放矩阵的容器，他包含了两部分，分别是用来存放图片信息的信息头，和一个指向图片储存矩阵的指针。信息头往往占用空间比较小，而且各个图片之间的信息头是完全独立的。而图片储存矩阵往往占用较大的空间，并且可以多个图片的矩阵指针指向同一个内存空间。下面主要减少利用Mat创建矩阵。

插卡式仪器模块：音频分析模块（插卡式）

2024-06-09
音视频
83人已看

• 音频信号分析：幅值、频率、信噪比、THD、THD+N 等指标。• 模拟音频测试：耳机、麦克风、扬声器测试，串扰测。• 支持多种模拟音频信号的输入/输出。• 192 KHz 采样率。

Unity 集成 FMOD 音频管理插件 2.02

您将采用现有的Unity项目，安装FMOD for Unity，并集成使用FMOD Studio创建的自适应音频。

用ffmpeg对视频添加语音、背景音乐和字幕的方法

其余参数涉及视频和音频的编码设置，如使用H.264编码器(-c:v libx264)、CRF值(-crf 23)、预设(-preset veryfast)、AAC音频编码(-c:a aac)和音频比特率(-b:a 128k)等，用于控制输出文件的质量和兼容性。-map “[vout]” -map “[audio_mixed]” 指定最终输出使用哪些流：处理过的视频流[vout]和混合后的音频流[audio_mixed]。[1:a] 指的是第二个输入文件（voice.mp3）的音频部分。