Implicit 3D Orientation Learning for 6D Object Detection from RGB Images论文笔记

16 天前 Deep Learning 42 分钟读完 (约 6260 字)

论文地址

注：本文谨代表笔者观点，水平有限，若有不足及疏忽之处，诚请批评指正

Abstract

提出一个RGB-based的实时目标检测和6D姿态估计pipeline。这个新型3D的目标朝向估计（orientation estimation）方法基于去噪自编码器的一个变体，其采用域随机（Domain Randomization）在3D模型的模拟视图上训练，称之为Augmented Autoencoder。与现有方法相比，它的优势在于：无需真实、带姿态标注的训练数据；可泛化至多种测试传感器，并能够内在地（inherently）处理目标与视图的对称性问题。不需学习一个从输入图像到目标姿态的显式映射，本方法给出了目标朝向的隐式表征（implicit representations），由隐空间（latent space）的样本定义。基于 T-LESS 和 LineMOD 数据集的实验表明所提的方法不仅比类似的基于模型的方法有更好的表现，而且表现也接近目前顶级的、需要真实的姿态标注图像的方法。

Deep Forest论文笔记

16 天前 Deep Learning 26 分钟读完 (约 3860 字)

论文链接https://arxiv.org/abs/1702.08835

注：本文谨代表笔者观点，水平有限，若有不足及疏忽之处，诚请批评指正

Abstract

尝试用不可微模块建立深度模型
推测DNNs成功的秘密在于：
- layer by layer processing
- in-model feature transformation
- sufficient model complexity
提出gcForest，决策树集合方法，比DNNs更少的超参数，模型复杂度依据数据自动调整。采用默认参数设置，对于不同领域各种类型的数据，在大部分情况下相当鲁棒。

DBSCAN聚类

1 个月前 Machine Learning 18 分钟读完 (约 2750 字)

DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法，和K-Means，BIRCH这些一般只适用于凸样本集的聚类相比，DBSCAN既可以适用于凸样本集，也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。

TF-IDF原理

1 个月前 Machine Learning 6 分钟读完 (约 906 字)

原文

TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).

是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

Shutil与OS常用文件操作

1 个月前 Python 6 分钟读完 (约 890 字)

Python 常用文件操作接口。

XGBoost完全指南

1 个月前 Machine Learning 17 分钟读完 (约 2503 字)

原文地址：Complete Guide to Parameter Tuning in XGBoost (with codes in Python)

XGBoost(eXtreme Gradient Boosting)是Gradient Boosting算法的一个优化的版本。因为我在前一篇文章，基于Python的Gradient Boosting算法参数调整完全指南，里面已经涵盖了Gradient Boosting算法的很多细节了。我强烈建议大家在读本篇文章之前，把那篇文章好好读一遍。它会帮助你对Boosting算法有一个宏观的理解，同时也会对GBM的参数调整有更好的体会。

LightGBM使用

1 个月前 Machine Learning 22 分钟读完 (约 3286 字)

xgboost的出现，让数据民工们告别了传统的机器学习算法们：RF、GBM、SVM、LASSO……..。微软推出了一个新的boosting框架，想要挑战xgboost的江湖地位。

顾名思义，lightGBM包含两个关键点：light即轻量级，GBM 梯度提升机。

Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning

1 个月前 Deep Learning 22 分钟读完 (约 3365 字)

论文链接：https://arxiv.org/abs/1612.01887

Abstract

基于注意力的神经编码-译码框架（Attention-based neural encoder-decoder frameworks）已经在图像标注任务中广泛采用。大部分方法在生成词语时，强行令视觉注意信息发挥效力。然而，译码器在预测诸如“the”和“of”等“非视觉”（non-visual）词汇时，可能几乎不需要从图片中获取视觉信息。其它看上来像视觉词汇的词语，例如在“behind a red stop”之后的“sign”，或者“talking on a cell”之后的“phone”，经常可依赖语言模型进行可靠的预测。在本文中，我们提出了一个新的带视觉哨兵（visual sentinel）的自适应注意力模型(adaptive attention model)。在预测的每一步，我们的模型会决定是注意图像（如果是，具体到哪块区域），还是注意视觉哨兵。模型决定了是否要聚焦于图像以及其具体区域，以为序列词语的生成提取出有效信息。在COCO和Flickr30K上的测试结果显示，我们的方法以显著优势重置了新的state-of-the-art水准。

Restricted Boltzmann Machine

5 个月前 Machine Learning 24 分钟读完 (约 3592 字)

受限玻尔兹曼机（Restricted Boltzmann Machine，RBM）是G.Hinton教授的一宝。Hinton教授是深度学习的开山鼻祖，也正是他在2006年的关于深度信念网络DBN的工作，以及逐层预训练的训练方法，开启了深度学习的序章。其中，DBN中在层间的预训练就采用了RBM算法模型。RBM是一种无向图模型，也是一种神经网络模型。

RBM

Numpy and Matplotlib Tutorial

5 个月前 Python 17 分钟读完 (约 2531 字)

Numpy

Numpy is the core library for scientific computing in Python. It provides a high-performance multidimensional array object, and tools for working with these arrays.

Abstract

Abstract

Abstract

Numpy

Your browser is out-of-date!