Capsules with Inverted Dot-Product Attention Routing

启发

前面的卷积部分可以换成一个更高级的 backbone（backbone 不变了）
改变一种胶囊结构（DE 扩张 + 缩小 W）
路由算法（3-5 篇文章，总结出一个）--采用他的并发路由方法 + 改进？
提出一种 dropout（还是高低阶配合）
实验部分（和这几篇文章保持一直：MNIST、Fashion-MNIST、SVHN、CIFAR-10）
其实这张图能给我很大的启发，对胶囊网络进行改进，Routing 算法（）

没有使用任何非线性压缩函数，所以我可以引入 MODE，与之相对应，自然需要引入 Layer Normalization

损失函数，我也使用 Cross Entropy
路由的对比方法：EM 路由对应的论文是《Dynamic Routing Between Capsules》（Sabour et al., 2017），而动态路由对应的论文是《Matrix Capsules with EM Routing》（Hinton et al., 2018）。这两篇论文是关于胶囊网络中路由机制的重要研究工作。
‍

论文

Abstract

子胶囊路由父级胶囊根据一致性投票

根据 inverted dot-product 注意力机制进行路由
用层归一化
并发迭代路由代替顺序路由

Introduction

doing inference of the latent capsule statesand routing probabilities jointly across multiple capsul

介绍胶囊网络

初级胶囊是 16 维，经过 LayerNorm 进行归一化。

反向点积注意力路由

提出的路由有两个阶段：

计算低级和高级胶囊的一致性

我只有一个疑问? poses 和 caps 什么区别？pose 就是 caps 中的向量

$L$ 层的胶囊 $i$ 对 $L + 1$ 层的胶囊 $j$ 的支持性？
更新高级胶囊的位姿信息

对胶囊内部进行 LayerNorm，而没有使用 squash

Inference and learning

推理和学习的过程

推理过程

算法，给定输入的图像、参数，计算 class logits

前胶囊层：从 backbone 网络，提取出图像特征。
胶囊层：backbone 提取出的特征，然后通过卷积和 LayerNorm，得到初级胶囊 $P^{1}$ 。

然后随后的胶囊层 $P^{2 : N}$ 被初始化到 0。
- 执行顺序路由。
- 从 2 到 t 次迭代：
  
  并发路由，通过并发路由减少累计效应，也从一个方面可以说减少了胶囊网络的过拟合现象.Capsule Network is Not More Robust than Convolutional Network¹，这篇文章也说明了，原始胶囊网络的路由算法会对网络的健壮性有伤害。
后胶囊层：

目标是获得预测分类的 logits $\overset{y}{^}$ ，从最后一个胶囊层的 $P^{N}$ ，用一个线性分类 $\overset{y_{i}}{^} = c l a ss i f i er (p_{i}^{N})$ ，主要是 classifier 如何实现？全连接胶囊？

学习过程

SGD 优化、使用 cross-entropy 和 binary cross-entropy losses（）

与现在 CapsuleNet 的对比

其实这张图能给我很大的启发，对胶囊网络进行改进，Routing 算法（）

没有使用任何非线性压缩函数，所以我可以引入 MODE，与之相对应，自然需要引入 Layer Normalization

损失函数，我也使用 Cross Entropy

实验部分

三种路由方法的对比：

我现在用的还是动态路由？从图中来看，使用 backbone 本身就有很大的效果

总体效果：本文提出 > 动态路由 >EM 路由
backbone 的选择：
参数量：，其实应该和我得 MODE-Caps 想利用的权值类似

反向点积注意力（无 Layer Normalization）

证明 Layer Normalization 得重要性
反向点积注意力（并发路由）

顺序路由时，性能和迭代次数不再正相关。。。
反向点积添加激活

添加激活函数，反而性能发生了下降

Capsule Network is Not More Robust than Convolutional Network

是否可以借鉴本片文章的路由算法？

路由算法是否可以有改进？

#胶囊网络#

Abstract
- 胶囊网络的动态路由层会伤害健壮性：
- 文章中做了：仿射变换、重叠数字的识别能力、语义表示的紧凑性
- ‍
‍

Intructions
- 。
Background & Related Works
Empirical Studies on Capsule Network

对 CapsNet 的鲁棒性进行实证研究
- 1. 转换过程
  2. 动态路由层
  3. 压缩函数
  4. margin loss 和交叉熵 loss
  5. 重构正则化
- 三个问题
  1. ConvNet-FC 和 CapsNets 的不同？
  2. CapsNets 的组件有什么不同？
  3. 两种网络如何转换？
Affine Transformation
- 结果和分析
  
  ‍
‍ ↩

卷积核

为什么需要卷积操作 1、特征提取使用特定的卷积核，能够提取出图片数据特定方向的信息卷积操作即是对图像的像素点进行乘运算并将结果矩阵的所有值求和得出一个数的结果 [图片] 此处 input 即是一个 55 像素大小的图片使用一个 33 矩阵对图片最左上角 9 个像素点进行卷积运算（乘）矩阵算法1 依次从坐标 0， ..

从 transformer 追溯到 CNN

为什么要写 transformer 的文章呢？大概归于 3 个原因 1）目前我对于大模型的理解仅停留在使用层面，API、提示词、Agent 玩的很 6，无法接触到很核心的东西。长期下去可能也没啥进步 2）网上对于 transformer 讲解的文章或者视频大多很晦涩难懂，没点神经网络的基础是真的很难看懂，希望这篇文章能 ..

Audio

Lower Frame Rate Tech 作为传统的交叉熵训练的神经网络声学模型的替代方法，其中，交叉熵方法每 10ms 输出一帧。与传统模型相反，CTC 联合声学模型一起学习对齐，并且除了传统声学状态单元外还输出空白符号。这允许 CTC 模型以低帧率运行，与传统模型中的 10ms 不同，其是每 30ms 输出一帧， ..

Do Transformers Really Perform Bad for Graph Representation

Motivation 原有将 transformer 应用于图的效果并不好节点重要性，图结构性信息往往在目前的工作中被忽略 Thinking 为什么 GNN 效果不好 GNN 网络不能做的到很深，GNN 的一层本质上是在根据邻居节点的信息融合，层数过大会导致特征的趋同，反而丢失特征信息 oversmoothing，因 ..

yolo 系列

yolo-v2 darknet，yolov2 中提出，取缔所有的全连接层 [图片] 两种卷积 33（借鉴于 VGG，小卷积，感受视野大）和 11（省参数） fast-rcnn 3 中不同尺度，每种尺度下有 3 种尺寸比例，共 9 种框；先验尺寸比列未必适合数据集。yolov2 对其改进，对真实框进行聚类提取先验框： k ..

生动说明 Transformer，BERT，预训练模型的含义和关系

很多知识，尽管在学会了之后发现原来是多么的简单，但是当你刚接触的时候则是完全一头雾水。上一篇文章中我举了 Java 环境变量的配置例子来说明这一点，那是好几年前我读大一时候的事了。而最近在自然语言处理知识的学习上，我又遇到了这种情况。在我学习自然语言处理的入门教程时，很多教程都把 Transformer 和 BER ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

Capsules with Inverted Dot-Product Attention Routing

启发

论文

Abstract

Introduction

介绍胶囊网络

反向点积注意力路由

Inference and learning

推理过程

学习过程

与现在 CapsuleNet 的对比

实验部分

Capsule Network is Not More Robust than Convolutional Network

Abstract

Intructions

Empirical Studies on Capsule Network

Affine Transformation

相关帖子

现在流行的 deepseek，各种多模态大模型与传统的机器学习和深度学习（sklearn 和 pytorch）是一回事吗？

卷积核

从 transformer 追溯到 CNN

Audio

Do Transformers Really Perform Bad for Graph Representation

yolo 系列

生动说明 Transformer，BERT，预训练模型的含义和关系

欢迎来到这里！

Capsules with Inverted Dot-Product Attention Routing

启发

论文

Abstract

Introduction

介绍胶囊网络

反向点积注意力路由

Inference and learning

推理过程

学习过程

与现在 CapsuleNet 的对比

实验部分

Capsule Network is Not More Robust than Convolutional Network

Abstract

Intructions

Background & Related Works

Empirical Studies on Capsule Network

Affine Transformation

相关帖子

现在流行的 deepseek，各种多模态大模型与传统的机器学习和深度学习（sklearn 和 pytorch）是一回事吗？

卷积核

从 transformer 追溯到 CNN

Audio

Do Transformers Really Perform Bad for Graph Representation

yolo 系列

生动说明 Transformer，BERT，预训练模型的含义和关系

欢迎来到这里！