AI未来说-青年学术论坛(自然语言专场)。
万小军-自然语言生成NLG
上次在Bytedance做过报告。(密码byte
)
四大领域:
- 文本$\longrightarrow$文本
- 数据$\longrightarrow$文本
- 语义(结构)$\longrightarrow$文本
- 难。需要先NLU,然后再NLG。(目前应用少)
- 跨模态(多媒体)$\longrightarrow$文本
- 交叉领域。
应用:
- 文本总结(压缩)
- 文本生成(膨胀)$\longrightarrow$写作
- 对话(online)
- $\longrightarrow$基于搜索$\longrightarrow$联想$\longrightarrow$思考的对话系统
- 先膨胀再搜索
- 辩论
方法:
- 深度学习
- encoder-decoder / seq2seq(套路)
- VAE / CVAE
- RL / GAN
- 非深度学习
- Classification & ranking
- Rule learning
- Grammer based
- 非学习
- 人工规则
Data2text:
- template generation
- slot filling(数据填充)
- 数据的保真性
写诗(多层次马尔可夫?)
- 图片——>关键词——>诗句
收缩——>膨胀
NLG的Automatic evaluation(自动评价指标)是个难点!
- NLG的核心还是联想规则和想界
张家俊-同步双向推断模型BERT
BERT(Bidirectional Encoder Representation from Transformers)。
序列:
- 表示(Encoder)——二分类
- 表示——序列标注
核心:表示(representation)
1亿+参数,通过预训练。(随机化马尔可夫自动机?)
Bert优势:
- pre-train, fine-tune some model
- bidirectional LSTM representation
- traditional language model
- bigger data
Bert vs. GPT:
- Bidirectional decoder is the KEY!
GPT2.0:
- More data
- NLG
(GPT没有用到未来的数据)
观察到的现象:生成质量从起点开始效果逐渐减弱。
策略:从左右双向进行生成。
BIFT:(同步风筝)
- 从左到右
- 从右到左
- 同步生成优化
(进一步优化:提取关键节点,多方向同步生成?)
使用的结构:栈
信息的融合:插值(线性、非线性),激活
李蕾-自动文本摘要
研究:
- 文本模型
- 摘要模型
分类:
- 单文档 vs. 多文档
- 单语言 vs. 多语言
- 抽取式 vs. 生成式
- 无监督 vs. 有监督
- 传统文本 vs. 网络新文本
- 新技术……
孙珂-对话技术/产业化应用UNIT
键盘+鼠标 $\longrightarrow$ 触屏 $\longrightarrow$ 语音 $\longrightarrow$ 思维
对话式人机交互技术已经进入产业爆发期!
核心技术:
- 任务型
- 问答型
- 闲聊型$\longrightarrow$虚拟人物建模?用户停留时间越长越好?
协调性。
(多个机器人,具有不同性格?)
任务型对话系统的对话理解技术
- 情感分析、成分分析
成分分析技术:[分词、词性、专名]一体化联合识别模型
开源地址:https://github.com/baidu/lac(中文词法分析LAC)
语料扩充:20万$\longrightarrow$ 1.3亿(利用搜索结果进行标注「搜索+点击」)
爬取100万+异常检测$\longrightarrow$人工优化(众包)
语义:
- 组合语义推导+分类策略
一体化识别模型:
- 准确率97%+
面向消费者的技术服务:体验++,规模++
面向AI开发者的技术服务:快速迭代,成本- -
UNIT(多引擎融合对话理解技术)$\longrightarrow$多步迭代模型
- 先开发一个准确率不高的baseline,等数据规模上来以后再用深度学习
问答系统:
- 知识库/知识图谱
- 多文本阅读理解
闲聊:
- 生成式
- 检索式(基于深度注意力……)
主流对话系统:
- 消费产品
- 客服/企业——人机交互(语音模拟/虚拟已经相当成熟)
平台:https://ai.baidu.com/unit/home(UNIT)
谭继伟-Seq2seq文本摘要
- 单文档摘要
- 多文档摘要
- 句子摘要
抽取式?生成式
Masked解码算法:
- 每一步解码只允许有限的词表
- 增加生成某些词的概率
刘一佳-句法分析
context2vec:正在探索
- 能够有效对未登录词词性进行聚类
上下文相关词向量——训练代价太高!
相关文章