http://www.roxin999.com
荣鑫电器-电器综合行业门户-电器行业垂直网站
首页 > 智能家居 >正文

自然语言处理——人工智能连接主义复兴浪潮中的下一个突破口

AI 行业应用是一片新的大陆,深度学习作为新大陆的基石,经历了一轮又一轮突破。过去十年,在计算机视觉、语音识别、棋类 AI 等计算和感知智能技术上,深度学习率先取得成功。而最近深度学习在认知智能/自然语言处理上的进展,特别是 Transformer 衍生模型加上两阶段预训练语言模型范式的成功,正在将自然语言处理变成人工智能下一个最有可能的突破口。

计算机视觉与语音的成功是破茧成蝶,而非横空出世

2010 年到 2017 年,从 LeNet 到 AlexNet、Inception、VGGNet、ResNet 及其衍生结构,深度神经网络加上集成学习技术在计算机视觉研究中大放异彩,在 ImageNet 大规模深度视觉挑战(ILSVRC)图像分类任务上的错误率从 28.2% 一路降低到了 2% 左右。尽管这仍然是“实验室环境”下的结果,但当 AI 在某一个单点任务上的表现接近或者超越人类的时候,就会给行业带来巨大的商机。在视觉分类、检索、匹配、目标检测等各项任务上,随着相关算法越来越准确,业界也开始在大量商业场景中尝试这些技术。

人脸识别,作为计算机视觉技术取得突破的一个代表性应用,就是在这个大背景下从技术研究期进入成熟商业期,爆发成为一个千亿甚至万亿级别的市场。

 自然语言处理——人工智能连接主义复兴浪潮中的下一个突破口

但在计算机视觉技术商业化的历程中,其实也有一段不短的蛰伏期。在深度卷积神经网络兴起之前,微软亚洲研究院研究人脸识别的团队曾在内部长期遭受质疑:做了十多年,准确率总是只有 70% 到 80%,看上去挺好玩,但这个准确率能有什么实际的应用价值呢?然而 2010 年深度学习浪潮迅速扫清了质疑,长期研究这个方向的被质疑者们,成了这个新商业领域的领导者,从火种涅槃成为满天繁星。而连接主义学派的忠实信徒、蛰伏近三十年的深度学习三剑客 Geoff Hinton、Yann LeCun 和 Yoshua Bengio,也是因为在统计机器学习盛行的数十年间受尽冷眼的厚积,才有了 2010 年后因 GPU 算力和神经网络模型不断加深而产生的薄发,从而一举获得图灵奖。

为什么自然语言处理领域的发展要相对滞后?

深度学习在计算机视觉、语音识别等感知智能技术上率先取得成功并不是偶然。深度学习秉承连接主义学派的范式,相较传统统计机器学习技术的最大进化在于其利用了高于统计方法数个数量级的参数和极其复杂的函数组合,通过引入各种非线性和多层级感知能力,构成了远强于统计机器学习模型的拟合能力。ResNet-152 的参数量已经达到六千万的级别,GPT-2.0 的参数量达到了惊人的 15 亿。而其他上亿甚至数亿级别的网络更是数不胜数。如此复杂的模型对数据的拟合能力达到了前所未有的水平,但是同时也极大提高了过拟合的风险。这对数据提出了极高的要求。训练数据的数量、维度、采样均衡度、单条数据本身的稠密度(非0、不稀疏的程度),都需要达到极高的水平,才能将过拟合现象降低到可控范围。

视觉信息(图像、视频)恰好是这样一类自然连续信号:一张图片通常就有数百万甚至上千万像素,而且每个像素上通常都有颜色,数据量大、数据的表示稠密、冗余度也高。往往在丢失大量直接视觉信号的情况下,人还能迅速理解图片的语义信息,就是因为自然连续信号,如图像中的场景和物体往往具有视觉、结构和语义上的共性。一个 30MB 的位图图片能被压缩到 2MB 而让人眼基本无法感知区别;一个 30MB 的 wave 音频文件被压缩到 3MB 的 MP3 还能基本保持主要旋律和听感,都是因为这类自然连续信号中存在大量不易被人的感官所感知的冗余。

视觉信息这种的丰富和冗余度,让深度神经网络得以从监督信号中一层层提炼、一层层感知,最终学会部分判断逻辑。深度神经网络在感知智能阶段中在视觉任务和语音任务上的成功,离不开视觉、语音信号自身的这种数据特点。

今天,属于感知智能的视觉和语音应用已经全面开花,但属于认知智能的自然语言处理却发展滞后。这种发展状态与自然语言处理技术中的数据特征也有密不可分的关系。

相对于图片、语音给出的直接信号,文字是一种高阶抽象离散信号。较之图片中的一个像素,文本中一个单元信息密度更大、冗余度更低,往往组成句子的每一个单词、加上单词出现的顺序,才能正确表达出完整的意思。如何利用单个文本元素(字/词)的意思,以及如何利用语句中的顺序信息,是近年来自然语言处理和文本分析技术的主要探索脉络。