• 相关博文
  • 最新资讯
加载中...
  • 使用大batch优化深度学习:训练BERT仅需76分钟 | ICLR 2020

    作者的实验结果证明了LAMB在各种任务(例如BERT和RseNet-50训练)中可以表现的非常出色,且仅需调整少量的超参数。重要的是,对于训练BERT,本文的优化程序可以使用非常大的32868 batch大小,而且不会降低性能。通过将批处理大小增加到TPUv3 Pod的内存限制,BERT的训练时间可以从3天减少到只有76分钟(可以见后面的表1)。LAMB的实现已经开源。

    2020.04.07 0
  • 170亿参数加持,微软发布史上最大Transformer模型

    BERT和GPT-2之类的深度学习语言模型(language model, LM)有数十亿的参数,互联网上几乎所有的文本都已经参与了该模型的训练,它们提升了几乎所有自然语言处理(NLP)任务的技术水平,包括问题解答、对话机器人和文档理解等。

    2020.02.13 0
  • 华为诺亚方舟开源预训练模型“哪吒”,4项任务均达到SOTA

    BERT之后,新的预训练语言模型XLnet、RoBERTa、ERNIE不断推出,这次,华为诺亚方舟实验室开源了基于BERT的中文预训练语言模型NEZHA(哪吒),寓意模型能像哪吒那样三头六臂、大力出奇迹,可以处理很多不同的自然语言任务。

  • 百度ERNIE登顶GLUE榜单,得分首破90大关

    12月10日,百度ERNIE在自然语言处理领域权威数据集GLUE中登顶榜首,以9个任务平均得分首次突破90大关刷新该榜单历史,其表现超越微软MT-DNN-SMART, 谷歌T5、ALBERT等一众顶级预训练模型。

  • T5,一个探索迁移学习边界的模型

    10月,Google 在《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》这篇论文中提出了一个最新的预训练模型 T5(Text-To-Text Transfer Transformer),其参数量达到了 110 亿,完爆 Bert Large 模型,且在多项 NLP 任务中达到 SOTA 性能。有人说,这是一种将探索迁移学习能力边界的模型,它的意义究竟是什么?潜力还有多大?

  • 情感识别难?图神经网络创新方法大幅提高性能

    最近,深度学习在自然语言处理领域(NLP)取得了很大的进步。随着诸如 Attention 和 Transformers 之类新发明的出现,BERT 和 XLNet 一次次取得进步,使得文本情感识别之类的等任务变得更加容易。本文将介绍一种新的方法,该方法使用图模型在对话中进行情感识别。

  • Simple Transformer:用BERT、RoBERTa、XLNet、XLM和DistilBERT进行多类文本分类

    本文将介绍一个简单易操作的Transformers库——Simple Transformers库。它是AI创业公司Hugging Face在Transformers库的基础上构建的。Hugging Face Transformers是供研究与其他需要全面控制操作方式的人员使用的库,简单易操作。

    2019.10.29 0
  • NLP这两年:15个预训练模型对比分析与剖析

    在之前写过的《NLP的游戏规则从此改写?从word2vec, ELMo到BERT》一文中,介绍了从word2vec到ELMo再到BERT的发展路径。而在BERT出现之后的这大半年的时间里,模型预训练的方法又被Google、Facebook、微软、百度、OpenAI等极少数几个玩得起游戏的核心玩家反复迭代了若干版,一次次的刷新我们这些吃瓜群众的案板上的瓜。

  • BERT的成功是否依赖于虚假相关的统计线索?

    本文介绍论文Probing Neural Network Comprehension of Natural Language Arguments,讨论BERT在ACRT任务下的成绩是否依赖虚假的统计线索,同时分享一些个人对目前机器学习尤其是自然语言理解的看法。

  • 新一届最强预训练模型上榜,出于BERT而胜于BERT

    预训练方法设计有不同的训练目标,包括语言建模、机器翻译以及遮蔽语言建模等。最近发表的许多论文都使用了微调模型,并预先训练了一些遮蔽语言模型的变体。然而,还有一些较新的方法是通过对多任务微调提高性能,结合实体嵌入,跨度预测和自回归预训练的多种变体。它们通常在更大数据上训练更大的模型来提高性能。本文的目标是通过复制、简化和更好地微调训练BERT,以作为更好理解上述方法的相对性能的参考值。 

    2019.08.05 0
  • 百度ERNIE 2.0发布!16项中英文任务表现超越BERT和XLNet

    2019 年 3 月,百度正式发布 NLP 模型 ERNIE,其在中文任务中全面超越 BERT 一度引发业界广泛关注和探讨。今天,百度发布了 ERNIE 2.0,指出其在英文任务方面取得全新突破,在共计 16 个中英文任务上超越了 BERT 和 XLNet,取得了 SOTA 效果。目前,ERNIE 2.0 代码和英文预训练模型已开源。

  • SpanBERT:提出基于分词的预训练模型,多项任务性能超越现有模型!

    本文提出了一个新的模型预训练方法 SpanBERT ,该方法能够更好地表示和预测文本的分词情况。新方法对 BERT 模型进行了改进,在实验中, SpanBERT 的表现优于 BERT 及其他基线,并在问答任务、指代消解等分词选择类任务中取得了重要进展。

  • XLNet:公平PK,BERT你已经被超过!

    几周前,XLNet团队发布了新型预训练语言模型XLNet,这个新模型在各项基准测试中都优于谷歌之前发布的BERT模型,其中模型 XLNet-Large 的数据量更是 BERT 模型的 10 倍左右。那 XLnet和BERT到底要选谁?

    2019.07.25 0
  • 追溯XLNet的前世今生:从Transformer到XLNet

    2019 年 6 月,CMU 与谷歌大脑提出全新 XLNet,基于 BERT 的优缺点,XLNet 提出一种泛化自回归预训练方法,在 20 个任务上超过了 BERT 的表现,并在 18 个任务上取得了当前最佳效果!从 BERT 到 XLNet,预训练模型在不断进步,本文将解读 XLNet 的诞生过程,回顾它的前世今生。

    2019.07.15 0
  • AI、5G、小程序、AIoT纷纷迎来高峰,下一步开发者们要怎么办?

    BERT后时代,NLP领域又将有哪些研究与技术创新?TensorFlow 2.0终于面世,是否满足你的预期?5G又将带给互联网一场怎样的变革?AIoT将迎来下一轮的风潮吗?AI技术驱动下,开发者们在小程序领域如何开拓出自己的天地?

    2019.07.09 0
  • AI、5G、小程序、AIoT纷纷迎来高峰,下一步开发者们要怎么办?

    中国的开源时代是否已经到来?BERT后时代,NLP领域又将有哪些研究与技术创新?TensorFlow 2.0终于面世,是否满足你的预期?大厂纷纷加入战局,AI芯片能否成为驱动技术应用的关键支撑?5G又将带给互联网一场怎样的变革?AIoT将迎来下一轮的风潮吗?AI技术驱动下,开发者们在小程序领域如何开拓出自己的天地?

    5G AI
    2019.07.08 0
  • 阿里达摩院刷新纪录,开放域问答成绩比肩人类水平,超微软、Facebook

    近日,由阿里巴巴达摩院语言技术实验室研发的 Multi-Doc Enriched BERT 模型在微软的 MS MARCO 数 据评测任务,Passage Retrieval Task(文档检索排序)和 Q&A Task(开放域自动问答)中双双刷新记录,均取得榜首(截止 2019 年 6 月 26 日)。

  • 刷新中文阅读理解水平,哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

    为了进一步促进中文自然语言处理的研究发展,哈工大讯飞联合实验室发布基于全词覆盖(Whole Word Masking)的中文BERT预训练模型。我们在多个中文数据集上得到了较好的结果,覆盖了句子级到篇章级任务。同时,我们对现有的中文预训练模型进行了对比,并且给出了若干使用建议。

  • 详解谷歌最强NLP模型BERT(理论+实战)

    本文从理论和编程实战角度详细的介绍 BERT 和它之前的相关的模型,包括 Transformer 模型。希望读者阅读本文之后既能理解模型的原理,同时又能很快的把模型用于解决实际问题。本文假设读者了解基本的深度学习知识包括 RNN/LSTM、Encoder-Decoder 和 Attention 等。