河南梦之网网络科技有限公司
梦之网科技出品
扫描关注梦之网科技微信公众账号

扫小程序码联系客服

谷歌量子霸权论文;13项NLP任务夺冠的小模型ALBERT-梦之网科技

梦之网科技2019-09-29文章动态

参与:一鸣、杜伟

本周重要论文很多,特别是谷歌的研究非常耀眼,有量子霸权论文和参数小 BERT 很多但性能超 XLNe 的模型 ALBERTt。此外还有北大等的论文。

目录:

Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

InterpretML: A Unified Framework for Machine Learning Interpretability

ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Language Models as Knowledge Bases?

Deep Learning For Symbolic Mathematics

Quantum Supremacy Using a Programmable Superconducting Processor

Do Massively Pretrained Language Models Make Better Storytellers?

论文 1:Gate Decorator: Global Filter Pruning Method for Accelerating Deep Convolutional Neural Networks

作者:Zhonghui You、Kun Yan、Jinmian Ye、Meng Ma、Ping Wang

论文链接:https://arxiv.org/abs/1909.08174

摘要:对滤波器进行剪枝是一种最为有效的、用于加速和压缩卷积神经网络的方法。在这篇论文中,来自北大的研究者提出了一种全局滤波器剪枝的算法,名为「门装饰器(gate decorator)」。这一算法可以通过将输出和通道方向的尺度因子(门)相乘,进而改变标准的 CNN 模块。当这种尺度因子被设 0 的时候,就如同移除了对应的滤波器。研究人员使用了泰勒展开,用于估计因设定了尺度因子为 0 时对损失函数造成的影响,并用这种估计值来给全局滤波器的重要性进行打分排序。接着,研究者移除哪些不重要的滤波器。在剪枝后,研究人员将所有的尺度因子合并到原始的模块中,因此不需要引入特别的运算或架构。此外,为了提升剪枝的准确率,研究者还提出了一种迭代式的剪枝架构——Tick-Tock。

图 1:滤波器剪枝图示。第 i 个层有 4 个滤波器(通道)。如果移除其中一个,对应的特征映射就会消失,而输入 i+1 层的通道也会变为 3。

谷歌量子霸权论文;13项NLP任务夺冠的小模型ALBERT-梦之网科技

图 2:Tick-Tock 剪枝框架图示。

谷歌量子霸权论文;13项NLP任务夺冠的小模型ALBERT-梦之网科技

图 3:组剪枝展示。同样颜色的 GBN 属于同一组。

推荐:本文是北大和 Momenta 的一篇论文,借用 LSTM 的门控制思想对神经网络进行剪枝,是一种新颖的剪枝方法,读者朋友可借鉴。

论文 2:InterpretML: A Unified Framework for Machine Learning Interpretability

作者:Harsha Nori、Samuel Jenkins、Paul Koch、Rich Caruana

论文链接:https://arxiv.org/abs/1909.09223v1

摘要:InterpretML 是一个为实践者和研究者提供机器学习可解释性算法的开源 Python 软件包。InterpretML 能提供以下两种类型的可解释性:(1)明箱(glassbox),这是针对可解释性设计的机器学习模型(比如线性模型、规则列表、广义相加模型);(2)黑箱(blackbox)可解释技术,用于解释已有的系统(比如部分依赖、LIME)。这个软件包可让实践者通过在一个统一的 API 下,借助内置的可扩展可视化平台,使用多种方法来轻松地比较可解释性算法。InterpretML 也包含了可解释 Boosting 机(Explanable Boosting Machine,EBM)的首个实现,这是一种强大的可解释明箱模型,可以做到与许多黑箱模型同等准确的性能。

谷歌量子霸权论文;13项NLP任务夺冠的小模型ALBERT-梦之网科技

软件架构和代码

推荐:本文是微软开源工具的论文,用于帮助人们使用科技史的模型进行机器学习。

论文 3:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

作者:谷歌团队

论文链接:https://openreview.net/pdf?id=H1eA7AEtvS

摘要:通常而言,在预训练自然语言表征时增加模型大小可以提升模型在下游任务中的性能。但在某些情况下,由于 GPU/TPU 内存限制、训练时间延长以及意外的模型退化等原因,进一步增加模型大小的难度也随之增加。所以,为了解决这些问题,来自谷歌的研究者提出通过两种参数削减(parameter-reduction)技术来降低内存消耗,加快 BERT 的训练速度。综合实验表明,ALBERT 的扩展效果要优于原始 BERT。此外,他们还使用了聚焦于句间连贯性建模的自监督损失,并证明这种损失对下游任务中的多语句输入有持续帮助。ALBERT 模型在 GLUE、RACE 和 SQuAD 基准测试上都取得了新的 SOTA 效果,并且参数量少于 BERT-large。

谷歌量子霸权论文;13项NLP任务夺冠的小模型ALBERT-梦之网科技

表 2:本文中用到的 BERT 和 ALBERT 模型配置。

文章关键词
谷歌
任务
模型
论文
13项
量子
夺冠
霸权
ALBER