您的位置:首页 >滚动 > 正文

贝叶斯深度学习:一个统一深度学习和概率图模型的框架

来源:TechWeb2022-05-07 18:34:39  阅读量:7306  

人工智能的进展表明,通过构建多层深度网络,用大量数据进行学习,可以显著提高性能可是,这些发展基本上发生在认知任务中对于认知任务,需要扩展传统的AI范式

日前,Rutgers大学计算机科学系助理教授王浩作为AI TIME mdash青年科学家,mdash在AI 2000学者专题论坛上,分享了一个基于贝叶斯的概率框架,可以统一深度学习和概率图模型,统一AI感知和推理任务。

根据介绍,该框架有两个模块:深度模块,用概率深度模型表示,图,即概率图模型深度模块处理高维信号,图形模块处理部分推理任务

以下是演讲全文。《AI科技评论》在不改变初衷的情况下进行了梳理:

今天,我想和大家分享我在贝叶斯深度学习方面的工作主题是我们一直在学习的概率框架我们希望用它来统一深度学习和概率图模型,统一AI感知和推理任务

众所周知,深度学习加持下的AI技术已经具备了一定的视觉能力,可以识别物体,阅读能力,能够理解文本,听觉能力,能够识别言语但是他们还是缺乏一些思考能力

思考对应推理任务意味着它可以处理复杂的关系,包括条件概率或因果关系。

深度学习适合处理感知任务,但是思考它涉及高级智能,如决策数据分析和逻辑推理概率图可以自然地表示变量之间的复杂关系,因此在处理推理任务时具有优势

如上图,概览图的一个例子任务是:我想通过打开或关闭草地上的洒水装置和外面的天气来推断外面的草地是湿的概率我还可以通过潮湿的草地推断天气概率图的缺点是不能高效处理高维数据

综上所述,深度学习擅长感知任务,不擅长推理和推断任务概率图模型擅长推理任务,不擅长感知任务

不幸的是,在现实生活中,这两种任务通常同时出现,并相互影响所以我们希望将深度学习的概率图统一到一个单一的框架中,希望能够做到两全其美

我们提出的框架是贝叶斯深度学习有两个模块:深度模块,由概率深度模型表示,图,即概率图模型深度模块处理高维信号,图形模块处理部分推理任务

值得一提的是,图模块本质上是一个概率模型,所以为了保证融合,需要深度模型也是概率的模型的训练可以使用经典算法,如MAP,MCMC,VI等

举个具体的例子,在医学诊断领域,深度模块可以想象成医生在看病人的医学图像,图形模块是医生根据图像对大脑中的疾病进行判断和推理从医生的角度来说,医学影像中的生理信号是推理的基础,过硬的能力可以加深他对医学影像的理解

推而广之,在电影推荐系统中,深度模块可以认为是理解电影的视频剧情和演员,而图形模块则需要对用户偏好和电影偏好的相似性进行建模进一步,视频内容理解和喜好建模也是互补的

具体到模型的细节,我们把概率图模型的变量分为三类:深度变量,属于深度模块,假设从相对简单的概率分布中产生,图形变量,属于图形模块,不直接连接深度模块,假设来自相对复杂的分布,Pivot变量,属于深度模块和图形模块的相关部分。

下面是该框架在实际应用中的工作方式。

推荐系统

推荐系统的基本假设是,用户对某部电影的偏好是已知的,然后预计用户对其他电影的偏好也是可以预测的。

用户对电影的喜爱程度可以写成评分矩阵,非常稀疏,用于直接建模,得到的准确率很低在推荐系统中,我们会依赖更多的信息,比如电影剧情,电影导演,演员信息进行辅助建模

为了对内容信息进行建模和有效净化,有三种方式可供选择:人工特征创建,深度学习自动特征创建和深度学习自适应特征创建显然,自适应方法可以达到最佳效果

不幸的是,深度学习固有的独立同分布假设对推荐系统来说是致命的因为假设用户之间没有联系显然是错误的

为了解决以上困难,我们推出了协同深度学习,可以整合Rdquo提升到非独立。该模型面临两个挑战:

1.如何找到一个有效的概率深度模型作为深度模块希望这个模型能兼容图模块,和非概率模块有一样的效果

2.如何将深度模块连接到主模块进行有效建模。

看第一个挑战自编码器是一个非常简单的深度学习模型,通常用于无监督提取特征,中间层的输出将作为文本表示值得一提的是,中间层的表示是确定性的,不是概率性的,与图模块不兼容,无法工作

我们提出一个概率自编码器,不同的是输出由确定的向量转换到高斯分布概率自编码器可以退化为标准自编码器,因此后者是前者的特例

深度模块和图模块怎么连接。首先由高斯分布提出J项的隐向量,

然后,从高斯分布中提取用户I的隐藏向量:

基于这两个隐藏向量,我们可以从另一个高斯分布中对用户I到项目J的分布进行采样高斯分布的平均值是两个隐向量的内积

上图中的蓝框代表图模块定义了项目,用户,分数等之间的条件概率关系一旦有了条件概率关系,就可以通过打分推导出用户和物品的隐藏向量,可以基于内积预测未知背景

上图是整个模型的图解,其中lambda是控制高斯分布方差的超参数为了评估模型的效果,我们使用了三个数据集:citeulike—a,citeulike—t和网飞Citeulike使用每篇论文的标题和摘要,而网飞使用电影情节介绍作为内容信息

实验结果如下图所示,RecallM指数表明我们的方法大大优于基准模型当得分矩阵更稀疏时,我们的模型的性能可以得到更大的提高原因是矩阵越稀疏,模型就越依赖于内容信息和从内容中提取的表示

提高推荐系统的性能可以提高企业的利润根据麦肯锡公司的调查,亚马逊35%的营业额是由推荐系统带来的这意味着推荐系统每增加1%,营业额将增加6.2亿美元

综上所述,到目前为止,我们提出了概率深度模型作为贝叶斯深度学习框架的深度模块,而非概率深度模型实际上是概率深度模型的特例针对深度推荐系统,提出了一种分层贝叶斯模型实验表明,该系统可以大大提高推荐系统的效率

其他应用程序设计

我们的任务是希望模型能够学习节点的表达方式,也就是既能捕捉内容信息,又能捕捉图形信息。

解决方案是设计一个基于贝叶斯深度学习框架的关系概率自编码器深度模块负责处理每个节点的内容毕竟深度学习在处理高维信息方面更有优势图形模块处理节点之间的关系,例如参考网络和知识地图的复杂关系

在医疗领域,我们注重医疗监护任务是:家里有个小雷达,会发射信号设计的模型希望根据患者反映的信号,发现患者是否按时,按正确的顺序服药问题是:用药的步骤很复杂,需要整理顺序

基于贝叶斯深度学习概率框架方法,深度模块用于处理非常高维的信号信息,图形模块用于对医学专业知识进行建模。

值得一提的是,即使是不同应用中的同一个模型,其中的参数也有不同的学习方法,比如可以通过MAP和贝叶斯方法直接学习参数分布。

对于深度神经网络来说,一旦有了参数分布,就可以做很多事情,比如可以估计预测的不确定性另外,如果能得到参数分布,即使数据不足,也能得到非常稳健的预测同时,该模型将更加强大毕竟贝叶斯模型相当于无数模型的采样

下面这个轻量级贝叶斯学习方法可以用在任何深度学习模型或者任何深度神经网络中。

首先明确目标:方法足够高效,可以通过反向传播学习,弃采样过程,并且模型能符合直觉。

我们的核心思想是将神经网络的神经元和参数视为分布,而不是高维空间中简单的点或向量允许神经网络在学习过程中向前和向后传播因为分布是用自然参数表示的,所以这种方法被命名为NPN

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。