思维之海

——在云端,寻找我的星匙。

AI未来说-青年学术论坛(自然语言专场)

AI未来说-青年学术论坛(自然语言专场)。

万小军-自然语言生成NLG

上次在Bytedance做过报告。(密码byte

NLP=NLU+NLG

四大领域

  • 文本$\longrightarrow$文本
  • 数据$\longrightarrow$文本
  • 语义(结构)$\longrightarrow$文本
    • 难。需要先NLU,然后再NLG。(目前应用少)
  • 跨模态(多媒体)$\longrightarrow$文本
    • 交叉领域。

应用

  • 文本总结(压缩)
  • 文本生成(膨胀)$\longrightarrow$写作
  • 对话(online)
    • $\longrightarrow$基于搜索$\longrightarrow$联想$\longrightarrow$思考的对话系统
    • 先膨胀再搜索
  • 辩论

方法:

  • 深度学习
    • encoder-decoder / seq2seq(套路)
    • VAE / CVAE
    • RL / GAN
  • 非深度学习
    • Classification & ranking
    • Rule learning
    • Grammer based
  • 非学习
    • 人工规则

Data2text:

  • template generation
  • slot filling(数据填充)
  • 数据的保真性

写诗(多层次马尔可夫?)

  • 图片——>关键词——>诗句
  • 收缩——>膨胀

  • NLG的Automatic evaluation(自动评价指标)是个难点!

  • NLG的核心还是联想规则和想界

张家俊-同步双向推断模型BERT

BERT(Bidirectional Encoder Representation from Transformers)。

序列:

  • 表示(Encoder)——二分类
  • 表示——序列标注

核心:表示(representation)

1亿+参数,通过预训练。(随机化马尔可夫自动机?)

Bert优势:

  • pre-train, fine-tune some model
  • bidirectional LSTM representation
  • traditional language model
  • bigger data

Bert vs. GPT:

  • Bidirectional decoder is the KEY!

GPT2.0:

  • More data
  • NLG

(GPT没有用到未来的数据)


观察到的现象:生成质量从起点开始效果逐渐减弱。

策略:从左右双向进行生成。

BIFT:(同步风筝)

  • 从左到右
  • 从右到左
  • 同步生成优化

(进一步优化:提取关键节点,多方向同步生成?)

使用的结构:栈

信息的融合:插值(线性、非线性),激活

李蕾-自动文本摘要

研究:

  • 文本模型
  • 摘要模型

分类:

  • 单文档 vs. 多文档
  • 单语言 vs. 多语言
  • 抽取式 vs. 生成式
  • 无监督 vs. 有监督
  • 传统文本 vs. 网络新文本
  • 新技术……

孙珂-对话技术/产业化应用UNIT

键盘+鼠标 $\longrightarrow$ 触屏 $\longrightarrow$ 语音 $\longrightarrow$ 思维

对话式人机交互技术已经进入产业爆发期!

核心技术:

  • 任务型
  • 问答型
  • 闲聊型$\longrightarrow$虚拟人物建模?用户停留时间越长越好?

协调性

(多个机器人,具有不同性格?)

任务型对话系统的对话理解技术

  • 情感分析、成分分析

成分分析技术:[分词、词性、专名]一体化联合识别模型

开源地址:https://github.com/baidu/lac(中文词法分析LAC)

语料扩充:20万$\longrightarrow$ 1.3亿(利用搜索结果进行标注「搜索+点击」)

爬取100万+异常检测$\longrightarrow$人工优化(众包)

语义:

  • 组合语义推导+分类策略

一体化识别模型:

  • 准确率97%+

面向消费者的技术服务:体验++,规模++

面向AI开发者的技术服务:快速迭代,成本- -

UNIT(多引擎融合对话理解技术)$\longrightarrow$多步迭代模型

  • 先开发一个准确率不高的baseline,等数据规模上来以后再用深度学习

问答系统:

  • 知识库/知识图谱
  • 多文本阅读理解

闲聊:

  • 生成式
  • 检索式(基于深度注意力……)

主流对话系统:

  • 消费产品
  • 客服/企业——人机交互(语音模拟/虚拟已经相当成熟)

平台:https://ai.baidu.com/unit/home(UNIT)

谭继伟-Seq2seq文本摘要

  • 单文档摘要
  • 多文档摘要
  • 句子摘要

抽取式?生成式

Masked解码算法:

  • 每一步解码只允许有限的词表
  • 增加生成某些词的概率

刘一佳-句法分析

上下文预训练模型最全整理:原理、应用、开源代码、数据分享

context2vec:正在探索

上下文相关词向量——训练代价太高!