Deep Learning

论文地址

注:本文谨代表笔者观点,水平有限,若有不足及疏忽之处,诚请批评指正

Abstract

提出一个RGB-based的实时目标检测和6D姿态估计pipeline。这个新型3D的目标朝向估计(orientation estimation)方法基于去噪自编码器的一个变体,其采用域随机(Domain Randomization)在3D模型的模拟视图上训练,称之为Augmented Autoencoder。与现有方法相比,它的优势在于:无需真实、带姿态标注的训练数据;可泛化至多种测试传感器,并能够内在地(inherently)处理目标与视图的对称性问题。不需学习一个从输入图像到目标姿态的显式映射,本方法给出了目标朝向的隐式表征(implicit representations),由隐空间(latent space)的样本定义。基于 T-LESS 和 LineMOD 数据集的实验表明所提的方法不仅比类似的基于模型的方法有更好的表现,而且表现也接近目前顶级的、需要真实的姿态标注图像的方法。

阅读更多

论文链接https://arxiv.org/abs/1702.08835

注:本文谨代表笔者观点,水平有限,若有不足及疏忽之处,诚请批评指正

Abstract

  • 尝试用不可微模块建立深度模型

  • 推测DNNs成功的秘密在于:

    • layer by layer processing
    • in-model feature transformation
    • sufficient model complexity
  • 提出gcForest,决策树集合方法,比DNNs更少的超参数,模型复杂度依据数据自动调整。采用默认参数设置,对于不同领域各种类型的数据,在大部分情况下相当鲁棒。

阅读更多

论文链接:https://arxiv.org/abs/1612.01887

Abstract

基于注意力的神经编码-译码框架(Attention-based neural encoder-decoder frameworks)已经在图像标注任务中广泛采用。大部分方法在生成词语时,强行令视觉注意信息发挥效力。然而,译码器在预测诸如“the”和“of”等“非视觉”(non-visual)词汇时,可能几乎不需要从图片中获取视觉信息。其它看上来像视觉词汇的词语,例如在“behind a red stop”之后的“sign”,或者“talking on a cell”之后的“phone”,经常可依赖语言模型进行可靠的预测。在本文中,我们提出了一个新的带视觉哨兵(visual sentinel)的自适应注意力模型(adaptive attention model)。在预测的每一步,我们的 模型会决定是注意图像(如果是,具体到哪块区域),还是注意视觉哨兵。模型决定了是否要聚焦于图像以及其具体区域,以为序列词语的生成提取出有效信息。在COCO和Flickr30K上的测试结果显示,我们的方法以显著优势重置了新的state-of-the-art水准。

阅读更多

梯度下降法(Gradient descent)是一个一阶最优化算法,通常也称最速下降法。要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点,这个过程被称为梯度上升法

阅读更多

转载自机器之心,原文作者Joyce Xu

GoogLeNet, 2014

过去几年来,计算机视觉领域中深度学习的诸多进展都可以归结到几种神经网络架构。除开其中的所有数学内容、代码和实现细节,我想探索一个简单的问题:这些模型的工作方式和原因是什么?

阅读更多

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×