智能对话机器人技术进展如何?存在哪些问题?如何设计一个企业对话机器人?用到哪些技术?
通过本文可以了解:智能对话机器人技术进展和各行业应用情况、国内外对话平台和工具梳理、6种问答类型介绍、各环节涉及的技术栈和数据准备方法等。
Part1对话机器人简介
1对话式AI
对话式AI是通过语音语义技术理解人类意图,执行任务或作出回答的智能技术。
对话系统广泛应用于各行各业,通过结合NLP与机器学习算法,实现高效智能的交互服务,如智能语音助手、聊天机器人、客服机器人、外呼机器人等。
图源:沙利文、头豹研究院
企业购买对话式AI机器人,为了降本增效,即降低或优化人力成本,增长业务、提高服务质量和效率。因此,AI对话产品核心功能往往需要智能调度、坐席助手、对话机器人和对话洞察四大模块,实现客流分发、人机协作、对话交互、智能运营和价值挖掘。助力企业数字化转型升级和商业决策,提升企业数字化、智能化、精细化的管理水平。想要切入智能对话服务领域的,可以参考下图。
图源:艾瑞咨询研究院
Part2应用行业和业务场景
图源:艾瑞咨询研究院
未来离不开人工智能,AI技术已经渗透到生产生活的很多方面和环节。
2行业痛点
人工服务现存痛点:
1)人力工作时长有限,对话机器人可设置24小时在线,而且可实现全渠道接入,无需在多个接入渠道中来回切换;
2)用户咨询量波动在高峰时期人力不足会导致服务体验波动,对话机器人可快速解决重复性问题,并根据业务流程,引导用户理清复杂、模糊问题,给予用户直接清晰的问题回复;
3)数据价值没被有效利用,且留存量低,对话机器人可对语音文本对话数据进行智能分析与质检,帮助企业深度挖掘数据价值。
图源:艾瑞咨询研究院
3业务场景和行业应用
Part3行业应用案例:
在金融财税行业,主要在证券、银行、保险、财税、互联网金融等细分领域。金融行业售前服务仍以电销为主,以SaaS模式为主且定制化需求多。
在教育培训行业,主要是培训机构、在线教育、高校网站或一些学生服务产品。需求点在于售前获客转化、业务效率及服务效果,对客服系统的流程设计、数据报表分析等方面都要求较高。
在电商零售商超行业,主要是售前咨询和售后服务,需要对客户的数据做积累和智能分析。
在生活服务领域,用户使用量大、不定时,比如物流、旅游、酒店住宿、医疗健康等生活服务平台,业务量大、用户使用频率高。比如旅游行业,相关景点信息、住宿、交通、饮食信息,涉及多个领域,咨询量很大,访客数及需求难以把控,可以根据访客咨询、浏览轨迹等信息,结合旅游相关知识库,提供套餐推荐和服务等。
政企法务方面,国家大力推行智慧政务、提升政务办公效率。除了要靠技术和产品实力,还很考验商务和资源关系。不同地域比较分散,较难规模化,如果有一个成功案例将是一个标杆。
Part4国内/外智能对话平台
国内外的一些企业推出了智能对话平台,满足中小企业或普通用户以较低的成本来配置一个对话机器人。
国内比较有代表性的有:百度UNIT[1]、阿里云小蜜[2]、腾讯TBP[3]、追一科技[4]、吾来[5]、竹间智能[6]等。
另外国内还有很多优秀对话式AI厂商,例如科大讯飞、思必驰、京东科技、沃丰科技、容联七陌、智齿科技、百应科技、一知智能、晓多科技等,就不在这里一一放链接了,感兴趣的同学可以自行搜索查找。
Google Dialogflow[7]、Facebook wit.ai[8]、Microsoft Luis[9]、Amazon Lex[10] 等。
Part5平台文档和构建工具
Facebook Messenger[11]、Slack[12]、Discord[13]、Telegram[14]、Wechat[15]、QQ[16]、
octaneai[17]、howdy botkit[18]、textit.in[19]、Motion.ai[20]、Chatfuel[21]、IBM’s Watson[22]、Chatfuel[23]、BeepBoopHQ[24]、Gupshup[25]
Part6关键技术
上文已经介绍了应用层和产品层的相关情况,接下来我们聊聊技术方面的方案。聊天机器人所需技术涉及到自然语言处理、文本挖掘、知识图谱、深度学习等众多技术领域。
图源:沙利文、头豹研究院
4对话机器人内部执行流程
对于一个机器人对话系统,用户说一句话,语音转成文字之后,根据文字的分词、句法、语义分析结果,去对应的知识库中,寻求或自动生成最合理的应答。
图源:艾瑞咨询研究院
5六种问答范式
问答是一种单轮的对话,用户问机器人回答。问答型对话的实现方式有:匹配式问答FAQ、知识图谱问答KBQA、文档问答DocQA、表格问答TableQA、任务式问答TaskQA、社区问答CQA等6种问答方式。
① 匹配式问答FAQ
匹配式问答应用比较广泛,常见的客服咨询、科普问答等都有应用。首先要根据业务场景需求梳理准备问答对数据(问题与答案的组合Questions Answer Pairs),训练相似度模型,当用户问题Query与问题Questions相似时,即会输出该问答对中的答案。答案是固定的,预先设置好的。
② 知识图谱问答KBQA
基于知识图谱的问答,是解析用户问题后从知识图谱中查询或推理结构化知识,找出答案。用户问题相对复杂,有多跳、条件限制等需要解析的问题。因此基于知识图谱的问答场景,可以完成多跳、限定条件、序数类、是否类、计数类等类型的问题。
首先要搭建知识图谱(知识图谱自动化构建技术以后再细谈啦,本文主要是基于知识图谱的对话技术),将数据转换成结构化的数据,可以使用Neo4j和Nebula Graph等图数据库存储。
③ 文档问答DocQA
基于文档的问答,基于用户问题从文档语篇中寻找对应的答案,抽取片段或者生成答案,类似于我们做阅读理解的题目。FAQ需要准备大量问答对,耗费人工,因此如果能通过模型智能搜寻答案,将大大降低人工成本。
首先要有业务文档积累,或者爬取领域公开资料,按照某种格式存储和标记。
④ 表格问答TableQA
基于表格的问答,从表格查询和推理获取用户问题的答案。比如商品属性相关的表格,从表格中搜索商品具体属性的值。基于表格的问答也可以解决复杂问题,带约束查询、推理计算、多表联查等。
图源:阿里智能对话机器人[26]
表格问答相比FAQ、对话流等其他引擎,可降低知识维护成本,并具备更强推理计算能力。
⑤ 任务式问答TaskQA
任务式问答,是根据用户意图和包含的实体(词槽)执行符合其需求的任务。对于复杂的问题,可以通过多轮对话的方式进一步交互。常见的场景有:票务机器人、房屋酒店预订、订外卖、点歌等。除了需要准备一些执行任务的话术外,还需要整理一些词槽、实体类别等内容。
⑥ 社区问答CQA
社区问答,主要帮助用户从社区中寻找复杂的、与上下文相关的问题的答案。利用UGC(用户产生内容)的方式,集众人的知识和智慧,在尽可能短的时间内找到合适的答案。像国内的知乎、百度知道、国外的Quora等都是社区问答。
上述的几种问答,都需要准备好知识和数据,但每个人的知识存在于脑子中,通过UGC的方式,内容可能并没有整理到知识库,但可以找到相关的、相似的社区内容提供给用户,或者发布出来等待用户回答。
6问答技术梳理
系统在收到用户query后,首先会对用户query进行预处理,包括分词、去除停用词、去除标点符号、同义词替换等;
之后的流程,看数据量大小又有不同的方案。数据量小的可以对库中数据做全量匹配,数据量大的往往还会有召回、粗排、精排等技术流程。
-
-
-
基于Finetune-Bert句向量的语义相似度计算;
-
利用纠错表、pycorrector或深度学习模型等对query纠错处理;
-
句子模板、意图分类模型、以搜代分通过检索召回等方式确定query的意图。
-
词典、HMM、Bert(+LSTM)+CRF等方式;
-
文本转向量化:word2vec、bert系列等可以将文本转向量;
-
对query特征向量索引(faiss/Milvus),找到TopK相似的标准问题;
-
关键词或关键字段召回,利用Elastic Search计算关键词相似度;
-
语义召回:利用 TF-idf、BM25、DSSM、ESIM等模型计算相似度;
通常会设置高低阈值,用来判断给答案还是走推荐,超出高阈值给top1问题的答案,两个阈值之间走推荐(推荐相似的相关的问题),低于最低阈值就拒识走兜底。这个是对话的一个业务处理逻辑,实际业务中,还有多个模型需要集成进处理链路,往往需要更复杂的执行逻辑,需要具体问题具体分析了。
Part7问答数据从哪里来
根据业务文档、产品手册等,从中提取、总结、归纳出可能的问题,并撰写答案。
从log日志中提取历史数据,进行数据挖掘、聚类和统计,将一些固定方式的、高频的历史问题总结制作成“标准问-相似问”的方式,再对应的撰写答案。例如:文本聚类后,如果某个簇所包含的样本数量超过一定量,就做为常问问题,并选择一个具有代表性的句子作为标准问,或人工编写标准问。
4、爬取数据:针对某一领域或行业,做爬虫。网上的数据毕竟是错综复杂的,用户所需获取的信息是需要有针对性的。然后使用算法模型,把非结构化数据转换成结构化数据。
5、使用模型生成:近期AIGC很火,通过模型生成数据再人工审核也可以获取一部分数据。
注:本文概括性地介绍了智能对话系统在不同领域的应用和问答技术栈,由于篇幅有限,更多关于多轮对话、对话生成、对话系统细节处理等,我们今后再继续讨论。由于作者能力有限,未尽之处,还请多多指教!
图片来自于沙利文、头豹研究院、艾瑞咨询研究院、阿里智能对话机器人等平台,版权归原机构所有,转载请注明出处。
[1]
百度UNIT: http://unit.baidu.com
[2]
阿里云小蜜: https://cn.aliyun.com/product/beebot
[3]
腾讯TBP: https://cloud.tencent.com/product/tbp
[4]
追一: https://zhuiyi.ai/
[5]
吾来: https://wulai.laiye.com/
[6]
竹间智能: https://www.emotibot.com/
[7]
Google Dialogflow: https://dialogflow.com
[8]
Facebook wit: https://wit.ai
[9]
Microsoft Luis: https://www.luis.ai
[10]
Amazon Lex: https://aws.amazon.com/cn/lex
[11]
Messenger: https://developers.facebook.com/products/messenger
[12]
Slack: https://api.slack.com/bot-users
[13]
Discord: https://discord.com/blog
[14]
Telegram: https://core.telegram.org/bots/api
[15]
Wechat: https://openai.weixin.qq.com/
[16]
QQ: https://q.qq.com/
[17]
octaneai: http://octaneai.com/
[18]
howdy botkit: https://github.com/howdyai/botkit
[19]
textit.in: https://textit.in/
[20]
Motion.ai: https://www.motion.ai/
[21]
Chatfuel: https://chatfuel.com/
[22]
IBM’s Watson: https://www.ibm.com/watson
[23]
Chatfuel: https://chatfuel.com/
[24]
BeepBoopHQ: https://github.com/orgs/BeepBoopHQ/repositories
[25]
Gupshup: https://www.gupshup.io/
[26]
阿里智能对话机器人: https://help.aliyun.com/document_detail/450645.html
【星标】公众号,精彩不错过
“点赞”是喜欢,“在看、分享”是真爱
<
原创文章。转载请注明:
作者:meixi
网址: https://www.icnma.com