用于细粒度识别的双线性论文阅读汇总（实时更新）

1.简介

双线性池化是 2015 年在《Bilinear CNN Models for Fine-grained Visual Recognition》首次用于细粒度识别，随后更是出现了一系列双线性算法的改进。双线性池化主要用于特征融合，对于同一样本提取的特征 x 和 y，通过 bilinear pooling 融合特征获得更具有表征能力的特征描述符。如果 x 和 y 来自于不同特征提取器，则称之为多模双线性池化，如果来自同一个特征提取器则称之为同源双线性池化或者二阶池化。

2.各种双线性池化

2.1 原始 bilinear pooling——《Bilinear CNN Models for Fine-grained Visual Recognition》

语言描述就是在说对两个特征在每个 location 上(共有 h*w 个 location)的 c 维向量做外积融合得到矩阵 b,对所有 location 上的 b 做和池化得到矩阵 $ϕ$ ,为什么是和池化而不是最大或平均池化应该是因为最大池化损失的信息量最少,再把 $ϕ$ 拉伸成 $c_{a} c_{b}$ 维向量 x,记为 bilinear vector。最后对 x 做符号平方根运算得到 y，对 y 做 L2 归一化得到最终特征 z 输入到分类网络进行分类。

总结：bilinear pooling 之所以取得了不错的效果是融合了一阶特征得到高维的二阶特征从而包含更多的信息量，由于是对所有 location 做和池化所以还具有平移不变性但由于其巨大的维度导致性能低下无法在实际中应用，比如原文的 feature map 通道数为 512，那么最后的特征有 26K 的维度。

GCNet: Non-local Networks Meet Squeeze-Excitation Networks and Beyond 阅读笔记

1.简介本文主要梳理下 Squeeze-and Excitation Networks（SEN），Non-local Neural Networks（NLN）以及 Global Context Net（GCN）。首先讲下什么是 Non-local,我们知道卷积操作是 local 的，虽然我们可以通过叠加卷积核来增大感 ..

dogs vs cats

Author:yudake date:2018/2/27 kaggle 计算机视觉经典赛题：dogs vs. cats github 地址：https://github.com/yudake/dogs-vs-cats 看 KevinRush 的视频学的，不过现在他已经把相关视频删除了。而且并不完全一样，有自己的修改。 ..

卷积核

为什么需要卷积操作 1、特征提取使用特定的卷积核，能够提取出图片数据特定方向的信息卷积操作即是对图像的像素点进行乘运算并将结果矩阵的所有值求和得出一个数的结果 [图片] 此处 input 即是一个 55 像素大小的图片使用一个 33 矩阵对图片最左上角 9 个像素点进行卷积运算（乘）矩阵算法1 依次从坐标 0， ..

从 transformer 追溯到 CNN

为什么要写 transformer 的文章呢？大概归于 3 个原因 1）目前我对于大模型的理解仅停留在使用层面，API、提示词、Agent 玩的很 6，无法接触到很核心的东西。长期下去可能也没啥进步 2）网上对于 transformer 讲解的文章或者视频大多很晦涩难懂，没点神经网络的基础是真的很难看懂，希望这篇文章能 ..

关于搭建思源 wiki 可行性的讨论

我在想能否在链滴下面增设思源 wiki 这个栏目，在基于用户指南的基础上，整合散落在 b 站、语雀以及链滴各处的思源笔记的教程与用法，使之体系化，完善从入门到进阶的过程，列出常见问题，打造类似与 Arch wiki 的教程。 wiki 的内容每个用户都可以参与编写，且能够根据贡献得到积分的反馈，每月或者每个季度有偿招募 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于