基于深度学习模型的点云目标检测及ROS实现

2018-11-05 16:47 次阅读
近年来,随着深度学习在图像视觉领域的发展,一类基于单纯的深度学习模型的点云目标检测方法被提出和应用,本文将详细介绍其中一种模型——SqueezeSeg,并且使用ROS实现该模型的实时目标检测。 传统方法VS深度学习方法 实际上,在深度学习方法出现之前,基于点云的目标检测已经有一套比较成熟的处理流程:分割地面->点云聚类->特征提取->分类,典型的方法可以参考Velodyne的这篇论文:LIDAR-based 3D Object Perception ▌那么传统方法存在哪些问题呢? 1.第一步的地面分割通常依赖于人为设计的特征和规则,如设置一些阈值、表面法线等,泛化能力差; 2.多阶段的处理流程意味着可能产生复合型错误——聚类和分类并没有建立在一定的上下文基础上,目标周围的环境信息缺失; 3.这类方法对于单帧激光雷达扫描的计算时间和精度是不稳定的,这和自动驾驶场景下的安全性要求(稳定,小方差)相悖。 因此,近年来不少基于深度学习的点云目标检测方法被提出,本文介绍的SqueezeSeg就是其中一种,这类方法使用深度神经网络提取点云特征,以接近于端到端的处理流程实现点云中的目标检测。 论文:SqueezeSeg: Convolutional Neural Nets with Recurrent CRF for Real-Time Road-Object Segmentation from 3D LiDAR Point Cloud,  https://arxiv.org/pdf/1710.07368.pdf SqueezeSeg理论部分 ▌概括 SqueezeSeg使用的是CNN(卷积神经网络)+CRF(Conditional Random Field,条件随机场)这样的结构。 其中,CNN采用的是Forrest提出的SqueezeNet网络(详情见论文:“SqueezeNet: Alexnet-level accuracy with 50x fewer parameters and < 0.5mb model size”, https://arxiv.org/pdf/1602.07360.pdf ), 该网络使用远少于AlexNet的参数数量便达到了等同于AlexNet的精度,极少的参数意味着更快的运算速度和小的内存消耗,这是符合车载场景需求的。 被预处理过的点云数据(二维化)将被以张量的形式输入到这个CNN中,CNN输出一个同等宽高的标签映射(label map),实际上就是对每一个像素进行了分类,然而单纯的CNN逐像素分类结果会出现边界模糊的问题,为解决该问题,CNN输出的标签映射被输入到一个CRF中,这个CRF的形式为一个RNN,其作用是进一步的矫正CNN输出的标签映射。最终的检测结果论文中使用了DBSCAN算法进行了一次聚类,从而得到检测的目标实体。 下面我们从预处理出发,首先理解这一点云目标检测方法。 ▌点云预处理 传统的CNN设计多用于二维的图像模式识别(宽 × \times× 高 × \times× 通道数),三维的点云数据格式不符合该模式,而且点云数据稀疏无规律,这对特征提取都是不利的,因此,在将数据输入到CNN之前,首先对数据进行球面投影,从而到一个稠密的、二维的数据,球面投影示意图如下: 其中,ϕ和θ分别表示点的方位角(azimuth)和顶角(altitude),这两个角如下图所示: 通常来说,方位角是相对于正北方向的夹角,但是,在我们Lidar的坐标系下,方位角为相对于x方向(车辆正前方)的夹角,ϕ和θ的计算公式为: 其中,(x,y,z) 为三维点云中每一个点的坐标。所以对于点云中的每一个点都可以通过其 (x,y,z) 计算其 (θ,ϕ)  ,也就是说我们将三维空间坐标系中的点都投射到了一个球面坐标系,这个球面坐标系实则已经是一个二维坐标系了,但是,为了便于理解,我们对其角度进行微分化从而得到一个二维的直角坐标系: 那么,球面坐标系下的每一个点都可以使用一个直角坐标系中的点表示,如下: 通过这么一层变换,我们就将三维空间中任意一点的位置(x,y,z) 投射到了2维坐标系下的一个点的位置 (i,j) 我们提取点云中每一个点的5个特征: (x,y,z,intensity,range) 放入对应的二维坐标 (i,j) 内。从而得到一个尺寸为 (H,W,C) 张量(其中C=5),由于论文使用的是Kitti的64线激光雷达,所以 H=64,水平方向上,受Kitti数据集标注范围的限制,原论文仅使用了正前方90度的Lidar扫描,使用512个网格对它们进行了划分(即水平上采样512个点)。所以,点云数据在输入到CNN中之前,数据被预处理成了一个尺寸为 (64×512×5)  的张量。 ▌CNN结构 SqueezeSeg的CNN部分几乎完全采用的SqueezeNet网络结构,SqueezeNet是一个参数量极少但是能够达到AlexNet精度的CNN网络,在对实时性有要求的点云分割应用场景中采用颇有意义。其网络结构如下: 该网络最大的特色为两个结构,被称为 fireModules 和 fireDeconvs,这两种网络层的具体结构如下: 由于输入的张量的高度(64)要小于其宽度(512),该网络主要对宽度进行降维,通过添加最大池化层(Max Pooling)降低数据的宽度。到Fire9输出的是降维后的特征映射。为了得到一个完整的映射标签,还需要对特征映射进行还原(即还原到原尺寸),conv14层的输出即对每个点的分类概率映射。输出最后被输入到一个条件随机场中进行进一步的矫正。 SqueezeSeg中采用的CRF 在深度学习技术不断进步的同时,概率图形模型已被开发为用于提高像素级标记任务准确性的有效方法。马尔可夫随机场(Markov Random Fields, MRF)及其变体——条件随机场(Conditional Random Fields, CRF)已经成为计算机视觉中最成功的概率图模型之一。 由于CNN网络的下采样层(如最大池化层)的存在,使得数据的一些底层细节在CNN被抛弃,近而造成CNN输出的预测分类存在边界模糊的问题。高精度的逐像素分类不仅依赖于高层特征,也受到底层细节信息的影响,细节信息对于标签分类的一致性至关重要。打个比方,如果点云中两个点相近,同时具有类似的强度值(intensity),那么它们就有可能属于同一个目标(即具有一样的分类)。 CRF推理应用于语义标记的关键思想是将标签分配(对于像素分割来说就是像素标签分配)问题表达为包含类似像素之间具有一定标签协议的假设的概率推理问题。CRF推理能够改进像素级标签预测,以产生清晰的边界和细粒度的分割。因此,CRF可用于克服利用CNN进行像素级标记任务的缺点。为了弥补下采样过程中细节信息的损失,SqueezeSeg在最后使用RNN实现一个CRF推理,以对label map进行进一步精炼,这里作者参考了论文: Conditional Random Fields as Recurrent Neural Networks ,该论文提出了mean-field 近似推理,以带有高斯pairwise的势函数的密集CRF作为RNN,在前向过程中对CNN粗糙的输出精细化,同时在训练时将误差返回给CNN。结合了CNN与RNN的模型可以正常的利用反向传播来端对端的训练。SqueezeSeg的CRF部分结构如下图所示: 我们将CNN的输出结果作为CRF的输入,根据原始点云计算高斯滤波器,其有两个高斯核,如下所示: 其中x为点的三维坐标 (x,y,z) ,p为点经过球面投影得到的方位角和顶角 (θ,ϕ),其他参数为经验性阈值。该高斯核衡量了两点之间特征的差异,两点之间差异越大( x xx 和 p pp 相差越多),高斯核的值就越小,两点之间的相关性也就越小。在输入图像使用该高斯滤波器的过程称为message passing,可以初步聚合邻域点的概率。接着,通过1x1大小的卷积核去微调每一个点的概率分布权重,这一个过程称为re-weighting and compatibilty transformation,卷积核的值是通过学习得到。最后,以残差方式将最初的便签映射加到re-weighting的输出结果并用softmax归一化。在实际操作中,整个CRF以RNN层重复循环三次,并得到最终精炼后的标签映射。 使用SqueezeSeg实现一个ROS节点进行点云目标识别与分割 SqueezeSeg的模型训练代码在本文中不在赘述,感兴趣的同学可以直接去看作者的开源代码: SqueezeSeg作者开源的模型训练代码: https://github.com/BichenWuUCB/SqueezeSeg 上面的代码为TensorFlow实现,基于上述仓库,我们实现一个ROS节点,调用一个已经训练好的SqueezeSeg模型,对输入的点云进行目标识别和分割。所以在运行下述实例代码之前,需要自行安装好TensorFlow-GPU版本(CPU版本亦可,但是运行速度相对要慢一些),本文假定大家已经安装好TensorFlow环境,我们来继续关注基于SqueezeSeg的ROS应用开发,我们采用论文作者公开的数据(来源于Kitti,采集自HDL-64雷达,同时已经完成了前向90度的切割,并且被保存成了npy文件)。 数据下载地址: https://www.dropbox.com/s/pnzgcitvppmwfuf/lidar_2d.tgz?dl=0  国内读者如无法访问,可以使用此地址下载: https://pan.baidu.com/s/1kxZxrjGHDmTt-9QRMd_kOA 将数据下载好以后解压到ROS package的 script/data/ 目录下,解压以后的目录结构为: squeezeseg_ros/script/data/lidar_2d/ 完整代码见文末github仓库。 采用作者开源的数据的一个很重要的原因在于手头没有64线的激光雷达,首先我们看看launch文件内容:                      npy_path参数即为我们的数据的目录,我们将其放在package的script/data目录下,npy_file_list是个文本文件的路径,它记录了验证集的文件名,pub_topic指定我们最后发布出去的结果的点云topic名称,checkpoint参数指定我们预先训练好的SqueezeSeg模型的目录,它是一个TensorFlow 的checkpoint文件,gpu参数指定使用主机的那一快GPU(即指定GPU的ID),通常我们只有一块GPU,所以这里设置为0,如果主机没有安装GPU(当然TensorFlow-gpu也就无法工作),则会使用CPU。squeezeseg_ros_node.py即为我们调用模型的接口,最后我们在启动Rviz,加载设定好的Rviz配置文件,即可将模型的识别结果可视化出来。 具体到squeezeseg_ros_node.py中,首先加载参数并且配置checkpoint路径: rospy.init_node('squeezeseg_ros_node')    npy_path = rospy.get_param('npy_path')    npy_file_list = rospy.get_param('npy_file_list')    pub_topic = rospy.get_param('pub_topic')    checkpoint = rospy.get_param('checkpoint')    gpu = rospy.get_param('gpu')    FLAGS = tf.app.flags.FLAGS    tf.app.flags.DEFINE_string(        'checkpoint', checkpoint,        """Path to the model paramter file.""")    tf.app.flags.DEFINE_string('gpu', gpu, """gpu id.""")    npy_tensorflow_to_ros = NPY_TENSORFLOW_TO_ROS(pub_topic=pub_topic,                                                  FLAGS=FLAGS,                                                  npy_path=npy_path,                                                  npy_file_list=npy_file_list) 循环读取npy数据文件,读取文件的代码如下: # Read all .npy data from lidar_2d folder    def get_npy_from_lidar_2d(self, npy_path, npy_file_list):        self.npy_path = npy_path        self.npy_file_list = open(npy_file_list, 'r').read().split('\n')        self.npy_files = []        for i in range(len(self.npy_file_list)):            self.npy_files.append(                self.npy_path + self.npy_file_list[i] + '.npy')        self.len_files = len(self.npy_files) 调用深度学习模型对点云进行分割和目标检测识别,并将检测出来的结果以PointCloud2的msg格式发到指定的topic上: # Read all .npy data from lidar_2d folder    def get_npy_from_lidar_2d(self, npy_path, npy_file_list):        self.npy_path = npy_path        self.npy_file_list = open(npy_file_list, 'r').read().split('\n')        self.npy_files = []        for i in range(len(self.npy_file_list)):            self.npy_files.append(                self.npy_path + self.npy_file_list[i] + '.npy')        self.len_files = len(self.npy_files)    def prediction_publish(self, idx):        clock = Clock()        record = np.load(os.path.join(self.npy_path, self.npy_files[idx]))        lidar = record[:, :, :5]        # to perform prediction        lidar_mask = np.reshape(            (lidar[:, :, 4] > 0),            [self._mc.ZENITH_LEVEL, self._mc.AZIMUTH_LEVEL, 1]        )        norm_lidar = (lidar - self._mc.INPUT_MEAN) / self._mc.INPUT_STD        pred_cls = self._session.run(            self._model.pred_cls,            feed_dict={                self._model.lidar_input: [norm_lidar],                self._model.keep_prob: 1.0,                self._model.lidar_mask: [lidar_mask]            }        )        label = pred_cls[0]        # point cloud for SqueezeSeg segments        x = lidar[:, :, 0].reshape(-1)        y = lidar[:, :, 1].reshape(-1)        z = lidar[:, :, 2].reshape(-1)        i = lidar[:, :, 3].reshape(-1)        label = label.reshape(-1)        cloud = np.stack((x, y, z, i, label))        header = Header()        header.stamp = rospy.Time().now()        header.frame_id = "velodyne_link"        # point cloud segments        msg_segment = self.create_cloud_xyzil32(header, cloud.T)        # publish        self._pub.publish(msg_segment)        rospy.loginfo("Point cloud processed. Took %.6f ms.",                      clock.takeRealTime()) 不同于一般的PointCloud2 msg,这里的每一个点除了包含x,y,z,intensity字段以外,还包含一个label字段(即分类的结果),构建5字段的PointCloud2 msg的代码如下: # create pc2_msg with 5 fields    def create_cloud_xyzil32(self, header, points):        fields = [PointField('x', 0, PointField.FLOAT32, 1),                  PointField('y', 4, PointField.FLOAT32, 1),                  PointField('z', 8, PointField.FLOAT32, 1),                  PointField('intensity', 12, PointField.FLOAT32, 1),                  PointField('label', 16, PointField.FLOAT32, 1)]        return pc2.create_cloud(header, fields, points) 使用launch文件启动节点: roslaunch squeezeseg_ros squeeze_seg_ros.launch 弹出Rviz界面,识别分割如下: 在我的 CPU:i7-8700 + GPU:GTX1070的环境下,处理一帧数据的耗时大约在50ms以内,如下: 对于semantic segmentationz这类任务而言,其速度已经比较可观了,通常雷达频率约为10HZ,该速度基本达到要求。
原文标题:无人驾驶汽车系统入门:基于深度学习的实时激光雷达点云目标检测及ROS实现 文章出处:【微信号:rgznai100,微信公众号:AI科技大本营】欢迎添加关注!文章转载请注明出处。
收藏 人收藏
分享:

评论

相关推荐

传统社交数据爆发式增长 Facebook AI实验室利用AI技术5年逆袭

“没有深度学习,现在的Facebook就无法正常运营,因为它已经深入到Facebook的方方面面了。....
发表于 12-10 14:45 114次 阅读
传统社交数据爆发式增长 Facebook AI实验室利用AI技术5年逆袭

分析医疗大数据未来发展过程中的主要挑战和趋势

在数据存储、加工、分析等中游环节,以云存储、云计算为代表的云技术,为医疗大数据价值挖掘提供了基础性技....
的头像 通信信号处理研究所 发表于 12-10 14:31 337次 阅读
分析医疗大数据未来发展过程中的主要挑战和趋势

PyTorch 1.0 稳定版终于正式发布了!

PyTorch 1.0 提供了两种方法使现有代码与 JIT 兼容的方法,torch.jit.trac....
的头像 新智元 发表于 12-10 09:44 219次 阅读
PyTorch 1.0 稳定版终于正式发布了!

2018年深度学习预测的回顾,目的是量化深度学习的快速发展

我现在开始认为,无监督学习和元学习实际上是同一个问题。进化解决这个问题的方法是通过踏脚石(stepp....
的头像 新智元 发表于 12-10 09:31 242次 阅读
2018年深度学习预测的回顾,目的是量化深度学习的快速发展

人工智能明年的五个重要发展方向的预测概述

今年,人工智能这个话题依旧火热,尤其是机器学习和深度学习,并且在接下来的一年我们相信这种关注度依旧不....
的头像 高工智能未来 发表于 12-08 10:34 534次 阅读
人工智能明年的五个重要发展方向的预测概述

人工智能技术在电力系统中的应用现状和发展方向

随着人工智能技术的兴起,人工智能技术应用在电力系统的运行、控制、管理等领域。人工智能技术在电力系统中....
的头像 集成电路应用杂志 发表于 12-08 10:29 666次 阅读
人工智能技术在电力系统中的应用现状和发展方向

NVIDIA迁移学习工具包 :用于特定领域深度学习模型快速训练的高级SDK

对于设计和集成智能视频分析(IVA)端应用程序(如停车管理、安全基础设施、零售分析、物流管理和访问控....
的头像 中国人工智能学会 发表于 12-07 14:45 250次 阅读
NVIDIA迁移学习工具包 :用于特定领域深度学习模型快速训练的高级SDK

TensorFlow Extended如何帮助开发者快速落地项目

TensorFlow Extended 可以分为四个部分。我们知道在机器学习中,有人工智能、机器学习....
的头像 TensorFlow 发表于 12-07 11:05 350次 阅读
TensorFlow Extended如何帮助开发者快速落地项目

一种基于点云的Voxel(三维体素)特征的深度学习方法

特征学习网络的结构如下图所示,包括体素分块(Voxel Partition),点云分组(Groupi....
的头像 电子发烧友网工程师 发表于 12-07 09:32 241次 阅读
一种基于点云的Voxel(三维体素)特征的深度学习方法

深度学习遭批判 AI未来如何发展

在刚刚结束的CCF-GAIR大会上,来自清华、加州大学伯克利、斯坦福、哈工大等多所国内外顶级理工科院....
的头像 悟空智能科技 发表于 12-07 09:09 413次 阅读
深度学习遭批判 AI未来如何发展

卷积神经网络的权值反向传播机制和MATLAB的实现方法

深度学习是多层神经网络运用各种学习算法解决图像、文本等相关问题的算法合集。卷积神经网络作为深度学习的....
发表于 12-06 15:29 38次 阅读
卷积神经网络的权值反向传播机制和MATLAB的实现方法

利用深度学习的方法得到了一种能够最大化非线性计算成像系统的实验设计

同时可将显微镜的照相光源替换为可编程的LED阵列,在不同LED照明模式下的成像将会把样本的相位信息(....
的头像 将门创投 发表于 12-06 10:27 255次 阅读
利用深度学习的方法得到了一种能够最大化非线性计算成像系统的实验设计

NeurIPS 2018最佳论文公布,4篇最佳论文中有一篇一作是陈天琦

根据大会主席在Opening Remarks透露,本届会议参会(注册)人数直逼9000人大关,投稿超....
的头像 新智元 发表于 12-06 09:46 580次 阅读
NeurIPS 2018最佳论文公布,4篇最佳论文中有一篇一作是陈天琦

DeepMind推出的AI工具AlphaFold以优异成绩碾压了人类专家

预测“蛋白质折叠”的结构,对科学家来说是很有用的,可以通过这种方式了解蛋白质在人体内的作用,对阿尔茨....
的头像 新智元 发表于 12-06 09:36 319次 阅读
DeepMind推出的AI工具AlphaFold以优异成绩碾压了人类专家

智擎信息:利用深度学习预警工业设备故障,将隐患遏止于萌芽

如今,智策平台已经在多个类型的制造业企业落地应用。以风电行业为例,通过大数据技术,基于风机的海量历史....
的头像 英伟达NVIDIA企业解决方案 发表于 12-05 16:30 1142次 阅读
智擎信息:利用深度学习预警工业设备故障,将隐患遏止于萌芽

1360亿美元!亚太地区AI市场规模于2025年或将实现全球领先

Tractica的分析表明,亚太地区的人工智能市场,包括软件、硬件和服务,将从2017年的60亿美元....
的头像 e星球 发表于 12-05 16:17 1653次 阅读
1360亿美元!亚太地区AI市场规模于2025年或将实现全球领先

视频分析以及数据处理能力技术的提升正在重塑这一市场

测速设备现在能提供比以往更多的功能,诸如车辆人员安全带检测、摩托车驾驶人员头盔检测等,它们通过机器学....
的头像 安全自动化 发表于 12-05 15:30 469次 阅读
视频分析以及数据处理能力技术的提升正在重塑这一市场

如何为实时音视频设计小且优的深度学习模型?

超分是我们后处理的一步,作为跟前面的处理不相关的一个处理,这一步放在最后。视频源经过编码在网络上传输....
的头像 声网Agora 发表于 12-05 15:16 674次 阅读
如何为实时音视频设计小且优的深度学习模型?

借助摄影测量方法以及GPU赋力的深度学习

如果不去除陵墓中的现代人工痕迹,就不可能参观到“真正”的古墓。为了实现这一目标,realityvir....
的头像 英伟达NVIDIA企业解决方案 发表于 12-05 13:35 293次 阅读
借助摄影测量方法以及GPU赋力的深度学习

深度学习给人工智能以璀璨的未来

深度学习是机器学习的一种形式,所采用的神经网络在输入节点和输出节点之间具有许多“深度”层。
的头像 传感器技术 发表于 12-04 15:46 329次 阅读
深度学习给人工智能以璀璨的未来

Phiar获得300万美元种子轮融资,推出AR+AI导航解决方案

据悉,Phiar于2017年6月在美国加利福尼亚州的帕洛阿尔托成立,在今年初加入Y Combinat....
的头像 VR陀螺 发表于 12-04 09:57 472次 阅读
Phiar获得300万美元种子轮融资,推出AR+AI导航解决方案

NIPS 2018 AutoML挑战赛公布了最终结果,清华大学计算机系朱文武团队斩获第二,高校排名雄踞第一!

首先是宏观方法论层面的平衡。AutoML比赛和传统的数据挖掘比赛有很多相似之处,但也有本质的不同。相....
的头像 新智元 发表于 12-04 09:21 529次 阅读
NIPS 2018 AutoML挑战赛公布了最终结果,清华大学计算机系朱文武团队斩获第二,高校排名雄踞第一!

23位顶尖AI专家预测:通用人工智能可能在2099年实现

从调查结果看,对这个问题的态度和年龄之间可能存在一些相关性。福特指出,有些接受采访的研究人员已经70....
的头像 新智元 发表于 12-04 09:04 737次 阅读
23位顶尖AI专家预测:通用人工智能可能在2099年实现

TensorFlow的30个主要功能总结

TensorFlow 是目前最流行的深度学习库,它是 Google 开源的一款人工智能学习系统。
的头像 人工智能 发表于 12-03 16:41 501次 阅读
TensorFlow的30个主要功能总结

半定制化的FPGA芯片和全定制化的ASIC芯片

目前以深度学习为代表的人工智能计算需求,主要采用 GPU、FPGA 等已有的适合并行计算的通用芯片来....
的头像 智车科技 发表于 12-03 11:14 385次 阅读
半定制化的FPGA芯片和全定制化的ASIC芯片

无人驾驶汽车经历的15个磨难

电动平衡车在技术上很成功,但从未达到其支持者所期望的对市场的巨大影响,相反其现在仅仅占有一个很狭窄的....
的头像 人工智能学家 发表于 12-03 10:46 391次 阅读
无人驾驶汽车经历的15个磨难

华为云刷新深度学习加速纪录

华为云ModelArts在国际权威的深度学习模型基准测试平台斯坦福DAWNBenchmark上取得了....
的头像 人工智能 发表于 12-03 10:29 508次 阅读
华为云刷新深度学习加速纪录

AGI(通用人工智能)和深度学习之间的关系

Gary Marcus 在纽约大学教授心理学和神经科学,这使他成为人工智能方面的专家。他写过一篇严厉....
的头像 新智元 发表于 12-03 09:30 368次 阅读
AGI(通用人工智能)和深度学习之间的关系

AI起航 协助多项领域落地

人工智能热潮由深度学习技术推动,如今智能客服、语音识别等领域已经与商业场景应用相结合,赋能各个行业,....
的头像 人间烟火123 发表于 12-02 10:29 1051次 阅读
AI起航 协助多项领域落地

深度学习陷困境_人工智能遇瓶颈

现在,深度学习面临着无法进行推理的困境,这也就意味着,它无法让机器具备像人一样的智能。但是真正的推理....
的头像 悟空智能科技 发表于 12-01 09:41 414次 阅读
深度学习陷困境_人工智能遇瓶颈

深度学习在图像识别领域的四大方向

图像识别技术的高价值应用就发生在你我身边,例如视频监控、自动驾驶和智能医疗等,而这些图像识别最新进展....
的头像 智车科技 发表于 12-01 08:54 2288次 阅读
深度学习在图像识别领域的四大方向

深度学习面临着无法进行推理的困境

那时,深度学习背后的策略和现在是一样的。比方说,你想要一台机器来自己学习识别雏菊。首先,你需要编写一....
的头像 机器人大讲堂 发表于 11-30 15:19 376次 阅读
深度学习面临着无法进行推理的困境

基于深度学习的CTR模型包DeepCTR

对于刚接触这方面的同学来说,可能对这些方法的细节还不太了解,虽然网上有很多介绍,但是代码却没有统一的....
的头像 人工智能头条 发表于 11-30 14:47 241次 阅读
基于深度学习的CTR模型包DeepCTR

一份CS230课程知识点的归纳总结,在Reddit上引发热议

Anchor boxing是一种用于预测重叠边界框的技术。在实际应用中,网络可以同时预测多个box,....
的头像 新智元 发表于 11-30 08:49 372次 阅读
一份CS230课程知识点的归纳总结,在Reddit上引发热议

扇贝是如何实现深度追踪模型并运用到英语学习者词汇水平评估中去

基于先前大量线上词汇量测试记录,我们的总序列数量已经累积到千万级别,这为使用深度学习模型提供了坚实的....
的头像 TensorFlow 发表于 11-29 17:36 665次 阅读
扇贝是如何实现深度追踪模型并运用到英语学习者词汇水平评估中去

清华刘洋与邓力合著一书系统介绍深度学习在NLP常见问题中的应用

本书提供了深度学习在自然语言处理中的一个全面介绍。它由一群经验丰富的深度学习和自然语言处理专家写成,....
的头像 悟空智能科技 发表于 11-29 16:57 309次 阅读
清华刘洋与邓力合著一书系统介绍深度学习在NLP常见问题中的应用

将深度学习用于这些影像进行识别和区分,以便快速的筛查出病症的细微信息

为了研究提取帧的特征空间,研究人员用重建损失训练了一个无监督卷积自动编码器。自动编码器由编码器和解码....
的头像 将门创投 发表于 11-29 10:30 535次 阅读
将深度学习用于这些影像进行识别和区分,以便快速的筛查出病症的细微信息

阿里巴巴首次公开深度学习框架——X-Deep Learning

阿里巴巴首次公开深度学习框架——X-Deep Learning,可提升广告、推荐、搜索场景效率XDL....
的头像 电子发烧友网工程师 发表于 11-29 10:02 525次 阅读
阿里巴巴首次公开深度学习框架——X-Deep Learning

从四个方面详细解析自动驾驶感知环节

自动驾驶感知的实现需要软硬件结合,本文从传感器和算法的角度带大家来了解一下自动驾驶的感知。
的头像 智车科技 发表于 11-29 09:41 713次 阅读
从四个方面详细解析自动驾驶感知环节

阿里巴巴最具商业价值的深度学习框架X-Deep Learning要开源了

对于难以与BAT研发能力比肩的众多互联网公司而言,工业级深度学习框架XDL及内置算法方案的开源,将助....
的头像 新智元 发表于 11-29 09:29 429次 阅读
阿里巴巴最具商业价值的深度学习框架X-Deep Learning要开源了

专访Keras之父:从何开始对深度学习感兴趣、Keras的创建背后的动机

我研究人工智能已经有很长一段时间了,但在我还是学生时,我对学习视觉感知的层叠、模块化、层次化表示的这....
的头像 人工智能 发表于 11-28 17:30 725次 阅读
专访Keras之父:从何开始对深度学习感兴趣、Keras的创建背后的动机

波多黎各一项研究有望通过深度学习大大地降低蚊子给人类带来的致命威胁

自从去年飓风“玛利亚”重创波多黎各之后,Wovenware 的这一项目的重要性显得尤其突出。飓风之后....
的头像 英伟达NVIDIA企业解决方案 发表于 11-28 11:50 560次 阅读
波多黎各一项研究有望通过深度学习大大地降低蚊子给人类带来的致命威胁

八大现象论证人工智能威胁论真的存在AI警告!

深度学习于2011年开始流行,在语音和计算机视觉方面塑造了创世纪的模式。如今,已经有足够的论证证明专....
的头像 Thundersoft中科创达 发表于 11-28 11:25 635次 阅读
八大现象论证人工智能威胁论真的存在AI警告!

无人驾驶汽车最新消息:苹果坚持自主系统 深度学习使得摄像头具备3D能力

在苹果宣布停止公布手机销量,以富士康和和硕为代表的供应商下调新款iPhone销售预期,市场一致看衰的....
发表于 11-26 16:51 1189次 阅读
无人驾驶汽车最新消息:苹果坚持自主系统 深度学习使得摄像头具备3D能力

使用Google TPU v3 Pod训练ResNet-50,在识别率没有降低的情况下2分钟搞定ImageNet训练

训练模型过程中,输入管道包括了数据读取、数据分析、预处理、旋转和批量化等操作。如果输入管道的吞吐量不....
的头像 新智元 发表于 11-26 09:30 279次 阅读
使用Google TPU v3 Pod训练ResNet-50,在识别率没有降低的情况下2分钟搞定ImageNet训练

深度学习在各个领域有什么样的作用深度学习网络的使用示例分析

深度学习网络作为一个功能多样的工具,虽然最初仅用于图像分析,但它已逐渐被应用到各种不同的任务和领域中....
的头像 智车科技 发表于 11-25 11:41 614次 阅读
深度学习在各个领域有什么样的作用深度学习网络的使用示例分析

利用深度学习来帮助眼科医生和验光师进一步检测眼部图像的新方法

在最近的一篇论文中,研究人员详细介绍了一种新的深度学习框架,该框架直接从原始光学相干断层扫描(OCT....
的头像 将门创投 发表于 11-24 10:53 587次 阅读
利用深度学习来帮助眼科医生和验光师进一步检测眼部图像的新方法

在不使用任何额外数据的情况下,COCO数据集上物体检测结果为50.9 AP的方法

实验中,我们发现当只使用 COCO 数据集时,从头开始训练的模型性能是能够匹配预训练模型的性能。我们....
的头像 电子发烧友网工程师 发表于 11-24 10:42 407次 阅读
在不使用任何额外数据的情况下,COCO数据集上物体检测结果为50.9 AP的方法

中国大陆高校AI实力到底如何?

近年来,深度学习技术广泛应用于自然语言处理,不仅在文本分类、序列标注、机器翻译和自动问答等许多任务中....
的头像 电子发烧友网工程师 发表于 11-24 10:38 5114次 阅读
中国大陆高校AI实力到底如何?

何恺明、Ross Girshick等大神深夜扔出“炸弹”:ImageNet预训练并非必须

ImageNet预训练方式加快了收敛速度,特别是在训练早期,但随机初始化训练可以在训练一段时间后赶上....
的头像 新智元 发表于 11-24 10:09 358次 阅读
何恺明、Ross Girshick等大神深夜扔出“炸弹”:ImageNet预训练并非必须

刚开始进行深度学习的同学怎么选择合适的机器配置

怎么为自己的深度学习机器选择合适的GPU配置呢?对于那些一直想进行深度学习研究的同学来说,一直是个比较纠结的问题,既要考...
发表于 09-19 13:56 516次 阅读
刚开始进行深度学习的同学怎么选择合适的机器配置

天睿视迅深度学习 nvidia tk1 开发板

产品概述:Tir-TK1V200是基于NVIDIA CD575M开发的一款AI深度学习模块。其NVIDIA处理器带有4+1的ARM Co...
发表于 09-17 16:42 492次 阅读
天睿视迅深度学习 nvidia tk1 开发板

深度学习神经网络海思Hi3559A硬件AI盒子

深度学习_神经网络_海思Hi3559A硬件AI盒子 ...
发表于 09-11 09:56 861次 阅读
深度学习神经网络海思Hi3559A硬件AI盒子

M60可以用于深度学习

我已经获准使用M60,并希望对人工智能进行一些培训,我知道它主要针对的是GRID&amp; vGPU,但我在许可pdf中注意到它提...
发表于 09-06 09:56 532次 阅读
M60可以用于深度学习

人工智能深度学习发展迅速,智能科技公司都已经涉足人工智能产品的研发!

深度学习(Deep Learning)核心技术开发与应用 1,Deep Learning—循环神经网络         ...
发表于 09-05 10:22 467次 阅读
人工智能深度学习发展迅速,智能科技公司都已经涉足人工智能产品的研发!

计算机视觉/深度学习领域常用数据集汇总

深度学习领域的“Hello World!”,入门必备!MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集,...
发表于 08-29 10:36 481次 阅读
计算机视觉/深度学习领域常用数据集汇总

人工智能和机器学习的前世今生

摘要: 阅读本文以了解更多关于人工智能、机器学习和深度学习方面的知识,以及它们对商业化意味着什么。 如果正确的利用模式识...
发表于 08-27 10:16 467次 阅读
人工智能和机器学习的前世今生

【详解】FPGA:深度学习的未来?

作者:Griffin Lacey Graham Taylor Shawaki Areibi 来源:arxiv 摘要 最近几年数据量和可访问性的迅速增长,使得人...
发表于 08-13 09:33 710次 阅读
【详解】FPGA:深度学习的未来?

  华为云深度学习服务,让企业智能从此不求人

  近日,华为云发布了深度学习服务,要让企业智能从此不求人。那么企业云的深度学习服务有哪些能力,为什么能够做到让企业智...
发表于 08-02 20:44 568次 阅读
  华为云深度学习服务,让企业智能从此不求人

前百度深度学习研究院科学家分享:机器视觉开发实战经验

人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的...
发表于 07-20 11:06 1487次 阅读
前百度深度学习研究院科学家分享:机器视觉开发实战经验