添加链接
link管理
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
论文阅读:Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos(S2D) Vision Mamba:使用双向状态空间模型进行高效视觉表示学习 原文提出了一种新的UniFormer,它可以有效地统一3D卷积和时空自注意力在一个简洁的Transformer格式,以克服视频冗余和依赖。我们在浅层采用局部MHRA,大大减少了计算负担,在深层采用全局MHRA,学习全局令牌关系。大量的实验表明,我们的UniFormer在流行的视频基准测试Kinetics-400/600和Something-Something V1/V2上实现了准确性和效率之间的较好平衡。 2024-03-24 21:22:28  · 1369 阅读  · 在本文中,我们提出了一个简单而强大的框架,S2D,它适应了一个关键点感知的图像模型,用于视频中的面部表情识别。本研究表明可以利用来自SFER数据和面部界标检测的先验知识来增强DFER性能。这项工作中采用的多视图互补提示器(MCP)有效地利用了在AffectNet数据集上学习的静态面部表情特征和来自MobileFaceNet 的面部地标感知特征。此外,S2D加入时间建模适配器(TMA)从静态表情识别拓展到动态表情识别,并采用了自蒸馏损失(SDL)。 2024-03-17 22:18:28  · 1201 阅读  · 该方法利用位置嵌入对图像序列进行标记,并利用双向状态空间模型对视觉表示进行压缩。ViT可以通过自注意为每个图像块提供数据/块相关的全局上下文通过将图像视为没有2D归纳偏差的补丁序列来进行模态不可知建模,这使其成为多模态应用的优选架构VIT的缺点:处理长距离视觉依赖时的速度和内存使用较差Mamba用于视觉任务的挑战:单向建模和缺乏位置意识本文提出Vision Mamba(Vim),它采用了双向SSM数据相关的全局视觉上下文建模和用于位置感知视觉理解的位置嵌入。 2024-02-25 23:13:41  · 2973 阅读  · PG方法的缺点是数据效率和鲁棒性不好。同时TRPO方法又比较复杂,且不兼容dropout(在深度神经网络训练过程中按照一定概率对网络单元进行丢弃)和参数共享(策略和值函数间)。这篇论文提出了PPO算法,它是对TRPO算法的改进,更易于实现,且数据效率更高。TRPO方法中通过使用约束而非惩罚项来保证策略更新的稳定性,主要原因是作为惩罚项的话会引入权重因子,而这个参数难以调节。TRPO中为了解优化问题,先线性近似目标函数,二阶近似约束,最后通过conjugate gradient算法和line search求解 2024-02-01 23:57:35  · 1106 阅读  · 本文主要介绍了强化学习中较为常用的一类算法,即 DDPG和TD3算法,它们虽然在结构上被归类于Actor-Critic算法,但从原理上来说跟DQN算法更为接近。先介绍了DDPG算法,它相当于DQN算法的一个连续动作空间版本扩展,它在DDPG在动作中引入噪声进一步提升了模型的探索能力。之后介绍了TD3算法,它主要包括了双Q网络、延迟更新和躁声正则。最后进行了代码实战。 2024-01-27 02:45:19  · 1395 阅读  · 本文首先从蒙特卡洛策略梯度算法和基于价值的DQN族算法的缺陷进行切入,引出了Actor-Critic 算法。该算法主要是对Critic 部分进行了改进,在Q Actor-Critic 算法提出的通用框架下,引入一个优势函数,即A2C算法。原先的 A2C算法相当于只有一个全局网络并持续与环境交互更新,而A3C算法中增加了多个进程,使每一个进程都拥有一个独立的网络和环境以供交互,并且每个进程每隔一段时间都会将自己的参数同步到全局网络中,提高了训练效率。之后介绍了广义优势估计着一种通用的模块,它在实践中可以用在 2024-01-24 00:20:09  · 1442 阅读  · 本文从对比基于价值的算法和基于梯度的算法,分析了它们各自的优缺点,之后用一个直观的例子引入了策略梯度算法,REINFORCE算法用来解决轨迹无限多而无法计算的问题,但是这个算法由于假定了目标是使得每回合的累积价值最大,而每回合的累积奖励或回报会受到很多因素的影响,比如回合的长度、奖励的稀疏性等等,从而泛化性不够。为了解决这个问题,提出了基于平稳分布的策略梯度算法。最后介绍了一下策略函数的实现。 2024-01-21 02:01:56  · 1725 阅读  · 本篇文章首先介绍了什么是强化学习,强化学习的作用以及应用场景。之后介绍了马尔可夫决策这一基本强化学习问题,了解了马尔可夫决策过程主要包含哪些要素,以及它和马尔可夫链之间的关系。之后我们学习了DQN算法,它首次将深度学习引入强化学习中,通过与Q-learning的对比介绍了DQN算法的基本流程以及代码实现。最后介绍了一些DQN算法的变种。 2024-01-17 16:19:35  · 1162 阅读  · 本篇博客是本人对pytorch使用的查漏补缺,参考资料来自[深入浅出PyTorch](https://datawhalechina.github.io/thorough-pytorch),本文主要以提问的方式对知识点进行回顾,列举了pytorch初学者常见的问题,大家可以按需求进行查阅,或者对自己的pytorch的基础知识进行测试。 2024-01-14 21:59:24  · 1207 阅读  · 在本文中,我们提出了一个简单而有效的局部-全局Transformer(LOGO-Former)和紧凑的损失正则化项在野生动态面部表情识别(DFER)。我们联合应用每个块内的局部注意力和全局注意力来迭代地学习时空表示。为了进一步提高模型的判别能力,我们通过紧凑的损失正则化项对预测分布施加约束,以增强类内相关性并增加类间距离。实验结果和可视化结果表明,我们的方法学习的歧视性时空特征表示,并提高了分类边缘。 2023-11-07 11:11:20  · 744 阅读  · 将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。请注意,输出的形状可能与输入的形状不同。例如,我们上面模型中的第一个全连接的层接收一个20维的输入,但是返回一个维度为256的输出。计算其输出关于输入的梯度,可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。# 用模型参数声明层。这里,我们声明两个全连接的层# 调用`MLP`的父类`Module`的构造函数来执行必要的初始化。 2023-11-05 22:12:49  · 439 阅读  · ​ MIL流水线通常包括四个步骤:实例生成、实例特征提取、实例聚合和分类。​ 在DFER的情况下,所提出的M3DFEL框架遵循该步骤:利用3DCNN从生成的3D-instances中提取特征并学习短期时间关系。DLIAM是用来模拟长期的时间关系,同时动态融合的实例到一个包。为了保持包级和实例级的时间一致性,引入了DMZ(动态归一化)。 2023-10-22 11:39:56  · 504 阅读  · 本文主要介绍了11个神经网络结构可视化工具和它们的可视化效果展示,包括:- pytorch自带pytorchviz- keras自带graphviz、visualkeras- TensorFlow自带TensorBoard- NN-SVG:全连接、LeNet、AlexNet- PlotNeuralNet:使用Latex编写- Netron:多种格式的网络模型文件可视化- ZETANE:可视化特征图(热力图)- Tensorspace.js:浏览器中使用- GRAPHCORE:类似神经元的炫 2023-03-07 16:30:37  · 2380 阅读  · 本文主要回顾了一下深度学习的相关知识,先从总体上对图神经网络进行了简要介绍,图表示学习从数据降维发展到图嵌入到图神经网络。图神经网络需要一些谱图论的知识,因此本文又介绍了谱图论的相关知识,包括拉普拉斯矩阵和傅里叶变化等。最后介绍了图神经网络中常见的两种操作:图滤波和图池化。 2023-03-03 00:35:41  · 806 阅读  · 本篇文章介绍了半监督节点分类问题的常见概念和各种求解方法的对比,之后介绍了五种解决半监督节点分类问题的算法,分别是Label Propagation ( Relational Classification)、lterative Classification、Correct & Smooth、Belief Propagation、Masked Lable Prediction,其中前两种属于集体分类,第三种属于后处理,第四种属于消息传递,第五种属于自监督方法。 2023-03-01 00:36:19  · 859 阅读  · 本文介绍了基于元学习的算法MAML,MAML目标是训练一组初始化参数,模型通过初始化参数,仅用少量数据就能实现快速收敛的效果。为了达到这一目的,模型需要在不同任务上进行学习来不停修正初始化参数,使其能够适应不同种类的数据,最后对MAML和预训练模型进行了对比。 2023-02-28 01:09:21  · 1679 阅读  · PageRank是1997年谷歌第一代搜索引擎的底层算法。大幅提高了搜索结果的相关率和质量,成为互联网第一个爆款应用,造就了传奇的谷歌公司。PageRank把互联网表示为由网页节点和引用链接构成的有向图,通过链接结构,计算网页节点重要度。来自重要网页节点的引用链接,权重更高。我们可以通过线性方程组、矩阵乘法、特征值和特征向量、随机游走、马尔科夫链,五种角度,理解并求解PageRank值。之后对PageRank的 2023-02-27 01:53:12  · 978 阅读  · 本篇文章主要讲解了DeepWalk算法和Node2Vec算法- DeepWalk算法能够通过随机游走序列(邻居信息和社群信息)学习网络的连接结构信息,将节点编码为连续地维的稠密的向量空间,新加入节点时不需要重新训练,只需要输入新节点和新连接关系,再进行增量训练,并且它可以进行并行计算。在代码实战部分,使用维基百科词条数据构建无向图,生成随机游走节点序列,训练Word2Vec模型,通过计算PageRank得到关键词条,并对embedding结果进行降维可视化。- Node2Vec通过调节p、q值,实现有偏 2023-02-25 01:44:00  · 933 阅读  · 本篇文章讨论了图表示学习,一种可以学习节点和图的嵌入用于下游任务而不需要人工特征工程的方法。采用了编码器-解码器的框架,编码器进行嵌入查找,解码器对嵌入预测得分来计算节点的相似度,讨论了节点相似度方法DeepWalk和Node2vec。 2023-02-20 20:53:15  · 543 阅读  · 本篇文章主要介绍了NetworkX工具包实战在特征工程上的使用,利用NetworkX工具包对节点的度、节点重要度特征 、社群属性和等算法和拉普拉斯矩阵特征值分解等进行了计算,最后对北京上海地铁站图数据进行了挖掘。 2023-02-20 15:54:27  · 1814 阅读  · 15 评论   本文主要介绍了使用NetworkX自带的可视化函数nx.draw,绘制不同风格的图。设置节点尺寸、节点颜色、节点边缘颜色、节点坐标、连接颜色等,并介绍了有向图可视化的模板和如何自定义节点坐标,最后以【美国128城市交通关系无向图可视化】和【国际象棋对局MultiDiGraph多路图可视化】实战演示了如何利用NetworkX工具包解决实际问题。 2023-02-20 13:44:48  · 2128 阅读  · 20 评论   本篇文章主要介绍了如何通过NetworkX工具包创建图、节点和连接。通过NetworkX自带的函数和API,创建内置的样例图,包括各种有向图、无向图、栅格图、随机图、社交网络。在NetworkX中创建单个节点、创建多个节点、图本身作为节点。在NetworkX中创建连接,设置连接的属性特征。 2023-02-18 01:30:05  · 1304 阅读  · 本文介绍图的基本表示包括无向图、有向图、二分图、有权图、邻接矩阵,同时对图的连通性进行了介绍。本文还介绍了传统的图机器学习,传统的图机器学习的关键在于特征工程,图的特征工程主要包括节点、连接和全图三个层面。 2023-02-16 01:18:44  · 767 阅读  · 本篇博客首先介绍了图的广泛应用场景,引出了图是描述大自然的通用语言。然而现有的机器学习和深度学习方法不能有效利用图信息进行学习,从而引出了图深度学习的基本概念和难点。图深度学习广泛的应用在我们的学习生活中,蕴含了巨大的商业价值和科研价值,同时图深度学习可以和人工智能各方向结合(大模型、多模态、可信计算、NLP、情感计算),促进其它方向的发展。 2023-02-13 23:05:11  · 945 阅读  · 本文主要讲述了ONNX-ONNX Runtime部署流程,首先将训练好的Pytorch模型转ONNX模型,这样我们就可以将ONNX模型在任何安装了ONNX Runtime环境的机器上进行运行,进行单张图片的预测、调用摄像头进行实时画面的预测等。使用ONNX我们可以让模型在不同框架之间进行迁移,方便我们低成本的将模型部署到移动设备中去。 2023-01-29 13:38:20  · 933 阅读  · 本文简要的介绍了一下CAM算法、LIME算法和DFF算法,之后实战部分利用torch-cam、pytorch-gradcam、captum、shap、lime工具包对模型可解释性分析,通过可解释性分析我们能够知道哪部分区域对预测结果比较重要,哪部分区域对预测结果产生正向影响,哪部分产生负面影响。通过可解释性分析我们可以在一定程度上找到模型预测出错的原因,例如在lime实战中,预测概率最大的一类是芒果,但是图片中并没有芒果,通过观察可解释性分析结果可以发现颜色对模型预测的干扰比较大,之后我们就可以朝这个方向改 2023-01-28 23:26:03  · 1586 阅读  · 本文主要介绍了如何在测试集上评估图像分类算法精度以及图像语义特征的可视化。包括准确率、top-n准确率、召回率、AUC、AP等常见的模型评价指标。对于分类错误的图片我们可以单独展示出来,便于我们找到分类错误的原因并给我们未来算法的改进提供思路。对于图像特征的可视化我们可以采用t-SNE降维和UMAP降维的方法,这两种方法大致思想都是使高维空间中接近的点在低维空间中任然接近。对于通过降维算法我们可以将图片降维至于二维或者三维,这样可以方便我们对其进行可视化展示。 2023-01-27 16:28:16  · 1804 阅读  · 本篇文章主要讲述了如何利用上次[三、利用迁移学习进行模型微调(Datawhale组队学习)](https://blog.csdn.net/qq_46378251/article/details/128751646?spm=1001.2014.3001.5501)得到的图像分类模型,分别在新的图像文件、新的视频文件和摄像头实时画面上进行预测。!!!注意:如果之前的图像分类模型是在CPU上训练得到的,这里用GPU版的pytorch导入模型的时候可能会出错,大家一定要注意版本的统一。 2023-01-25 15:03:56  · 1111 阅读  · 本篇文章主要介绍了通过迁移学习微调训练自己的图像分类模型。常见的迁移学习的方式有以下三种:只微调训练模型最后一层(全连接分类层);微调训练所有层;随机初始化模型全部权重,从头训练所有层。不同的迁移学习范式复用的是不同层次的卷积神经网络的特征和权重,我们在选择迁移学习方式的时候主要要考虑我们的数据集和预训练模型所用的数据集之间的分布和数据量大小差异。对训练过程中产生的日志数据我们可以进行可视化,我们可以使用wandb创建自己的可视化项目。 2023-01-24 03:43:14  · 2508 阅读  · 本篇文章主要介绍了用预训练模型进行图像分类预测的步骤以及三个应用场景,包括对单张图片的预测、视频文件的预测和摄像头实时画面的预测。无论是针对哪种任务,都要载入预训练好的图像分类模型、对图像进行预处理。针对单张图片的预测任务,可以利用预训练的模型得到所有类别的预测概率,从而选择概率最大的类别针对视频文件的预测任务,我们需要对视频逐帧处理(图像分类任务),再把每一帧串成视频文件摄像头实时画面预测任务,和视频文件的预测任务类似,只不过是通过摄像头得到每一帧的画面。 2023-01-18 20:14:11  · 1525 阅读  · 本篇文章主要讲述了构建自己图像分类数据集的步骤以及常见的问题。首先数据集的来源可以是从网上爬取的、自己拍照得到的、网上现成的数据集。对于我们得到的数据集我们可以利用Shell命令进行简单的清洗,包括删除系统自动生成的文件、gif格式图片、非三通道图片等,熟悉Linux操作可以帮助我们更好的清洗我们的数据。之后我们可以对我们的数据集进行划分、统计、可视化。 2023-01-17 14:56:50  · 4009 阅读  · 本篇博客主要介绍了元学习的基本概念、元学习的建模流程以及元学习和机器学习的对比。元学习将数据以任务的形式进行划分,将数据集分为很多个任务。而这些任务在类别上又可以分为**训练任务**和**测试任务**。每个任务自身可以分为**支持集**和**查询集**。元学习不是学习一个函数,而是学习一个学习函数。 2022-12-19 23:33:51  · 1646 阅读  · ​ 本次学习了ZFNet,它是在AlexNet之后新的改进,它主要提出了一种反卷积的思想,使用一个多层的反卷积网络来可视化训练过程中特征的演化及发现潜在的问题。- 发现学习到的特征远不是无法解释的,而是特征间存在层次性,层数越深,特征不变性越强,类别的判别能力越强;- 通过可视化模型中间层,在 alexnet 基础上进一步提升了分类效果;- 遮挡实验表明分类时模型和局部块的特征高度相关;- 预训练模型可以在其他数据集上fine-tuning得到很好的结果。- 模型越深越有分类有效性 2022-12-15 23:53:03  · 877 阅读  · 人工智能黑箱子灵魂之问Al的脑回路是怎样的?Al如何做出决策?是否符合人类的直觉和常识?Al会重点关注哪些特征,这些特征是不是真的有用?如何衡量不同特征对Al预测结果的不同贡献?Al什么时候work,什么时候不work?AI有没有过拟合?泛化能力如何?会不会被黑客误导,让AI指鹿为马?如果样本的某个特征变大15,会对Al预测结果产生什么影响?如果Al误判,为什么会犯错?如何能不犯错?两个AI预测结果不同,该信哪一-个?能让AI把学到的特征教给人类吗? 2022-12-13 19:57:05  · 1040 阅读  · 1.在训练的过程中,如果网络层的输出的中间层特征元素的值突然变成nan了,是发生了梯度爆炸了吗?还是有什么可能的原因?是的2.老师,通过把每一层输出的均值和方差做限制,是不是可以理解为限制各层输出值出现极大或极小的异常值?可以。 2022-10-23 13:01:25  · 773 阅读  · 1.丢弃法是每次迭代一次,随机丢弃一次吗?是2.请问可以再解释一下为什么“推理中的dropout是直接返回输入”吗?在做推理的时候不用更新权重,所以不用dropout3.请问,在同样的lr下,dropout的介入会不会造成参数收敛更慢,需要比没有dropout的情况下适当调大lr吗?↓drop对期望影响不大,lr对期望和方差敏感。 2022-10-23 11:08:02  · 829 阅读  ·