当前位置：首页 > 新闻资讯 > 机器人知识 > 自然语言处理技术发展趋势进一步推动人工智能从感知智能向认知智能的演进

自然语言处理技术发展趋势进一步推动人工智能从感知智能向认知智能的演进

来源：阿里机器智能编辑：永利服务时间：2020/6/23 主题：其他 [加盟]

2020 趋势：NLP 进一步推动人工智能从感知智能向认知智能的演进

站在新的一个十年，智能人机交互、多模态融合、结合领域需求的 NLP 解决方案建设、知识图谱结合落地场景等将会有突破性变化。

1 智能人机交互

语言模型将在智能人机交互中扮演更重要的角色，形成更丰富的形式，混合 100 种语言的多语言语言模型，以及融合图像-文本和语音-文本多模态语言模型将崭露头角，在不同语言、不同模态、不同领域的小样本场景下带来全面的能力提升。

多语言交互从不同语言理解上升到不同文化的理解，通过跨文化理解技术深入当地文化实现地道的对话交互。

以在线文本为核心的交互方式将全面转变为结合视频、图像、语音、文本的多模态人机交互。

基于数据驱动的对话状态跟踪和对话策略将逐渐替代规则式策略，使得多轮对话技术进一步演进，带来更自然的对话体验。

知识图谱将广泛融入问答和对话的各类深度学习模型，通过先验知识及推理能力的融入，使得模型更为白盒化，在对话的理解和生成过程中带来更好的可控性和可解释性。

对话系统在小样本情况下的冷启动能力提升带来应用构建成本的大幅下降，对话系统从主要为大体量的客户服务，拓展为更普惠的、广泛的支持海量规模、各行业的小企业及小商家，并进一步走向海外，使得更多不同国家、不同语言和不同文化的用户进入智能服务时代。

2 多模态融合

随着 5G 和边缘计算的逐步成熟和普及，将带来视频、图像、文本、语音等模态的全面融合，语言模型朝着多模态融合的方向发展，在在线场景下实现混合模态的理解，将能融合理解用户经过多轮对话发送的图片、语音和文字内容，并以多模态的形式进行回复；

对话系统产品中将全面实现多模态交互能力，直播和 IOT 大屏交互将全面应用视频+图像+文本多模态技术带来丰富的交互体验，流畅的全双工语音对话机器人将被普遍应用，实现边听边想、边听边猜、主动抢话等类人交互能力。

在语音交互场景下通过声学信号+文字信号，识别用户交流中的情绪变化，在 IOT 互动场景下实现基于摄像头、麦克风的拟态生命；

3 结合领域需求的NLP解决方案建设

过去 NLP 算法多以平台/API 的方式输出通用模型，相应地也在各种云上建立了通用 NLP 算法平台（Amazon Comprehend，微软 Azure Text Analytics，谷歌云 Natural Language，阿里 NLP，百度 NLP 等）。

但是在业务场景中，每种场景领域都有自己的特定的需求，产生了相应的场景数据。通用模型结合场景数据进行领域自适应训练，从而输出的领域定制模型会更好地满足业务需求。

4 知识图谱结合落地场景

面向新的一个十年，通过 NLP 和知识图谱两大核心技术来构建行业知识图谱，机器能够通过知识图谱挖掘隐性关系，洞察“肉眼”无法发现的关系和逻辑，用于最终的业务决策，实现更深层次的业务场景落地。从发展方向来说，可以分为下面几个方面：

优化知识抽取能力：结合已有的知识和 NLP 技术能力进一步提高非结构化数据理解能力，应用预训练语言模型、信息抽取、实体链接等相关的技术，对非结构化及半结构化数据进行抽取和转换，形成知识图谱形式的知识，以及和知识图谱里面的结构化的知识进行链接。

与行业知识沉淀：在行业知识图谱解决方案实际的落地过程中，面临重重挑战，行业知识图谱的构建，本身就需要数据积累和基于业务场景的数据理解，而构建和积累行业知识图谱，将是认知智能时代的核心竞争力。在行业数据构建时，对知识的准确性要求非常高，实体通常需要较多且具有行业意义。需要针对多源异构数据融合，基于可动态变化的“概念—实体—属性—关系”数据模型，对各种类型的数据进行抽象建模。

智能可信的知识推理：基于过去已知知识进行知识推理，理解行业事件知识驱动知识推理传导，利用行业规则逻辑结合深度模型进行推理，使其能够在业务的推理和辅助决策上带来更加智能化的体验。

以上是我们对于 NLP 技术过去一年发展的回顾和今年趋势的思考。一家之言难免疏漏或者以偏概全。抛砖引玉，希望能够得到更多同学们的思考和指正。比尔·盖茨曾说过，“语言理解是人工智能皇冠上的明珠”。要达到这样的高度，还需要技术和应用上的突破发展期待在下一个十年的开始，我们一起让 NLP 技术发展更加迅速，应用场景更加丰富，推动认知智能的发展更进一步。

自然语言处理技术发展趋势进一步推动人工智能从感知智能向认知智能的演进

自然语言处理技术五大技术进展和四大应用与产品

深度解析大规模参数语言模型Megatron-BERT

亿级视频内容如何实时更新

基于真实环境数据集的机器人操作仿真基准测试

看高清视频，如何做到不卡顿

京东姚霆：推理能力，正是多模态技术未来亟需突破的瓶颈

利用时序信息提升遮挡行人检测准确度

基于网格图特征的琵琶指法自动识别

知识图谱在个性化推荐领域的研究进展及应用

重构ncnn，腾讯优图开源新一代移动端推理框架TNN

达摩院金榕教授113页PPT详解达摩院在NLP、语音和CV上的进展与应用实践

OpenAI发布了有史以来最强的NLP预训练模型GPT-3

服务机器人(迎宾、讲解、导诊...)