j9九游会真人不错让模子连合处理图像的小区域-中国(九游会)官方网站

发布日期:2025-02-23 10:06    点击次数:61

j9九游会真人不错让模子连合处理图像的小区域-中国(九游会)官方网站

从狡计机诞生以来j9九游会真人,东谈主类就一直在假想怎么让它们变得像科幻电影里那样灵巧。从《2001:天外漫游》中的 HAL 9000,到《流浪地球》中的 Moss,东谈主工智能在屏幕中每每高效、感性、逻辑精良,给东谈主留住长远的印象。

现如今,大讲话模子和深度学习让咱们对"超等 AI "的可能性有了更多期待。但要竣事像 Moss 那种"万能助手"的智能,咱们还需要进步许多淆乱,最伏击的一丝就是:怎么让 AI 赶快相识并搪塞多样复杂场景,而不消依赖"海量"数据的苟且堆积?

▷  j9九游会真人 图 1. 电影《流浪地球》中的 Moss。图源:世界社会学

现时,机器学习已平时应用于数据分类、预测、筹办与生成等诸多领域,这些任务无不需要相识和搪塞复杂多变的情境。但是,传统的机器学习步履每每依赖海量的数据和高大的狡计资源,在处理高维度和大规模数据时,不免举步维艰。

为科罚这些问题, Karl Friston 近日在 arxiv 发表了题为" Renormalising generative models:From pixels to planning: scale-free active inference " 的论文。他通过主动推理(Active Inference)构建了规范不变的生成模子(Renormalising Generative Model, RGM),将分类、预测与筹办等问题滚动为推理问题,并借助最大化模子把柄这一搭伙框架,灵验科罚了视觉数据、时序数据分类及强化学习中的多种挑战。收获于该框架中引入的重整化群技艺,这一步履不详高效地处理大规模数据集。

▷图 2. 本文开始:Friston, Karl, et al. "From pixels to planning: scale-free active inference." arXiv preprint arXiv:2407.20292 ( 2024 ) .

01 主动推理

主动推理(active inference),指的是一种基于咱们现时不雅察到的景色来预测改日的模子。为什么称这种推理为"主动"呢?因为这种推理不单是是被迫地恭候发生的事情,而是通过主动的不雅察来推断事件的原因。也就是说,天然事件的发生旅途有些是看不见的,但有些旅途是咱们不错通过我方的行动来影响的,此外,还有一些终端是咱们汲取行动后才会得到的,是以在推理的过程中,咱们不仅要推测事件可能会怎么发生,还需要通过行动来鼓励这些事件的发生。

例如来说,在网球比赛中,球的飞翔轨迹如同在一棵不停张开的"可能树"上延展,每一次击球齐为这棵树增添一条新的分支(比如截击、抽球、扣杀、放小球……)。赛场上的选手需在繁多可能的旅途中作念出禁受,这不仅取决于自身的技艺,也受制于敌手的计策。在主动推理中,这种"对改日有所预想但不能深信的进程"被称作解放能。它不错相识为模子对所处环境(不雅测数据)"没看显然"的进程。解放能越高,就代表系统对现时或改日情状越"没底"。

其中,预判与推行的差距,就是预期解放能。而推理的目的,恰是将这种解放能降至最低。即选手不错通过不雅察(敌手球风、站位)和主动行动(比如试探性地将球打到敌手不擅长的区域)来减少这种不深信性。最终,解放能降到一定进程,选手就能作念出料敌先机、打败敌手的最好决议。

 

▷  图 3. 该计议中生成模子,不管是决议如故分类,生成模子齐是通过两个主要部分来清楚:似然性(likelihood)给定原因的终端概率和先验 A。似然性清楚在每种状态(s)组合下,某个终端发生的概率。而先验 A 则依赖于速即变量,反馈了咱们对终端的初步假定。澌灭状态之间调度的先验 B 由先验 B 决定,这些调度依赖于特定的旅途(u),其调度概率则在 C 中进行了编码。若是某些旅途不详最小化预期解放能(G),那么这些旅途在先验上就更有可能被禁受。

具体来说,咱们不错基于上图 3,梳理出身成模子具体服务进程:

(1)计策禁受:通过预期解放能的 softmax 函数来禁受计策,这决定了后续澌灭状态的生成表情。计策禁受过程中,临了一转的第一项清楚近似后验漫衍(模子预测的状态漫衍)与真的后验漫衍(本色状态漫衍)之间的 KL 散度,这一项掂量了近似后验漫衍与真的漫衍的互异,反馈了模子的复杂度(越小越好)。模子的复杂度较高可能意味着它过于拟合熟谙数据,无法很好地泛化。第二项清楚在近似后验漫衍下,不雅测数据的对数似然的祈望,它掂量了模子对不雅测数据的解释智力,解释智力越强,阐明模子不详较好地形色和预测数据,代表了模子的准确性。

(2)澌灭状态生成:根据所选旅途组合指定的概率调度,生成澌灭状态序列。这些澌灭状态代表了模子在不同时代点或关节中的里面状态,匡助模子相识和预测数据的变化。

 

(3)终端生成:澌灭状态通过一个或多个模态生成最终的终端。在这个过程中,澌灭状态的推断是基于不雅测到的终端序列,通过反推生成模子来揣度澌灭状态。学习则是通过更新模子参数来竣事。其中推断的过程是以过在(可限定的)旅途上建树先验,来最小化预期解放能竣事的。

为了便于相识,咱们如故以网球比赛为例进行阐明。其中第一项是指通过模子参数的更正,进步对敌手行动的预测智力;第二项是指通过自身的行动来铁心敌手的禁受;第三项是这些行动由于不雅察不深信性带来的亏本。主动推理模子通过最小化解放能 G(u)来优化计策,从而在比赛中占据成心位置,最终得到成效。

02 主动禁受与重整化群

传统的机器学习步履大多是:拿一堆数据去"熟谙"模子的参数,然后用这些参数来预测或分类。但随机候,模子太高大或者数据漫衍太复杂,咱们就需要从多个模子中挑选出最合适的阿谁,让它能既准确又高效地处理数据。

在贝叶斯派系看来,这叫作念"贝叶斯模子禁受"。其中领有悉数可能性的"父模子"可能很复杂,包含海量假定;但咱们也不错删掉一些不消要的假定,让模子更简化,成为更易狡计、更易泛化的"子模子";咱们通过比拟父模子与子模子对数据的解释进程(即解放能、边缘似然等有计划),来判断哪个更"精简而有劲"。迎靠近新数据时,这个框架不错通过为每个特有不雅测添加新的潜在原因,来竣事快速结构学习。

在模子禁受过程中,通过比拟父模子和增强模子下参数的后验祈望,可狡计预期解放能的互异。这一互异反馈了禁受一个模子相较于另一个模子所带来的信息增益,体现了模子在解释数据时的"使命"。根据对数上风比的大小,不错决定保留或终止父模子。唯独当预期解放能裁减时才保留或终止父模子。

当数据集规模扩大时,模子通过重整化群技艺,在更大的规范上生成对更微弱规范的近似形色,从而高效搪塞数据量的增长。拿图像为例,你不错先看一整张大的场景(比如一个城市俯视图),然后再不停放大某个局部去看街谈,临了对街谈里的某一栋建筑赓续放大……在不同的缩放比例下,你眷注的信息不一样,但它们其实是团结个场景,不同规范间不错相互映射。

重整化群就是利用了这种多眉目、多规范的想想:在每一层,模子齐对上一层的终端进行简化、再加工(如把某些像素合并成一个块,或者把衔接的语音讯号翻脸成多少音符),造成一个更高眉目、更概括的形色;这么,数据集再高大,也被一层一层地"压缩"成节略的要素和关系,大大收缩了狡计使命。而且,这些高眉目的"成见"或"状态"不详跨时辰、跨空间地进走运算,模子不消在每一个轻捷的维度上"纠缠",就不错作念出灵验推断。

在 RGM 中,这种重整化还会体面前时辰上:对低眉目的模子而言,你可能只眷注"下一秒会发生什么"。对更高眉目的模子,你眷注的是"这一幕戏的剧情走向"或"下一个章节的主题",是以时辰跨度更大。这就像看电影时,你不会介意每一帧的细节,只须把抓全体情节即可。

在衔接时辰的极限情况下,模子的重整化不错处理速率的变化(即加快度),以致更高阶的变化,访佛于衔接状态空间模子中在广义通顺坐标下的运作表情。从更直不雅的角度看,更高眉目编码的序列不错看作是事件的组合或情节,在深层结构中,一个状态不错生成序列的序列的序列,从而淆乱了在最低眉目生成的内容的马尔可夫性质(即系统确现时状态只与前一个状态关系,而与更早的状态无关)。举个例子,一个低眉目的天气模子,不错只关注今天的温度与昨天的温度的关联。但在更高眉目,可能要引入"季节"这一成见,关注长久变化的趋势。

▷图 5.   模子重整化过程清楚

此外,模子在状态空间上也需要进行重整化,如图 5 所示,较低眉目的状态组由较高眉目的单个状态生成,且任何眉目的状态齐不会分享较低眉目的子状态,这使得潜在因素在每个眉目上齐是条目孤苦的,从而保证了模子在不同眉目之间不错进行高效的乞降积运算。

最终,RGM 通过多眉目的时辰和空间规范,把一个复杂的视频、声息或者游戏场景进行概括,让模子不错在更"宏不雅"的眉目上科罚问题,并把微不雅层的预测(比如像素级别的变化)交给更底层去向理。

03 图像,视频及音频数据的压缩和重建

重整化生成模子可应用于不同类型的数据,例如进行图像分类和识别。咱们齐知谈图像是由衔接的像素组成的,模子最初会将这些衔接的像素值滚动为一组翻脸的值,称为量化;然后对图像进行分割,将图像诀别为小方块,这些小方块不错被看作"自旋",通过这种变换,不错让模子连合处理图像的小区域,而不是通盘大图像,这种步履称为"块自旋变换"(Block-Spin Transformation);接着进行奇异值认识(SVD),索取最伏击的信息。通过减少不伏击的身分(即小的奇异值),模子竣事了图像的初步压缩。

重叠对图像进行这种分块处理和变换,直到达到一个更高的眉目。每次变换会创建一个从高眉目到低眉目的似然映射,即从全局的角度到局部的细节的调度,然后,通过快速结构学习(Fast Structure Learning),模子就能根据不同眉目之间的结构关系来学习怎么生成图像。在熟谙过程中,模子通过递归应用禁锢变换来学习图像的多眉目结构,并不停颐养参数,以最大化互信息。互信息反馈了模子能从数据中索取到的有用信息量,优化模子时就是在尽量进步这一信息量。

以 MNIST 数字分类问题为例,模子通过对 MNIST 图像进行预处理,使用极少示例图像进行快速结构学习,生成具有四个眉目的 RGM。然后,通过主动学习优化模子参数,使互信息最大化。

▷  图 6.   MNIST 图像的量化过程,左图为原始图像,右图为重建图像。

▷图 7. RGM 的似然映射(图像的一个眉目映射到另一个眉目),上排展示了经转置后的映射,以阐明状态在不同眉目之间的生成关系。重整化生成模子在学习像素空间顶用于对象识别和生成的生成模子结构的应用。模子使用极少示例图像来学习适用于无损压缩的重整化结构。

重整化之后,模子通过主动学习对所得终端进行泛化;即在学习过程中,通过优化它的参数(例如压缩步履和禁受的块变换表情),从大批图像中中式一些数据进行熟谙。然后,模子通过狡计这些数据怎么压缩(即通过块变换),找到最灵验的压缩表情,使得压缩后的图像仍然保留尽可能多的重要信息。这种主动学习确保了从像素到对象或数字类别的规范不变映射,保留了像素间的互信息。

▷  图 8. RGM 在不同眉目上的投射场(模子在不同眉目上所学习到的结构),从上到基眉目慢慢裁减,投射场慢慢从全局变为局部,访佛于视觉系统中检朴单的感受野到复杂感受野(神经元响应的图像区域)的变化。

除了进行数据压缩,RGM 会使用瞻望最可能的数字类别的表情来对测试图像进行分类。主动推理中的监督依赖于模子一经具备的一些对于内容原因的学问,这与一些在学习中使用类别标签的办法函数造成对比。

在主动推理中,办法函数是用来掂量把柄的"可能性"或者"边缘可能性"的一种数学器用。通过优化这个办法函数,模子不详推测出某个景色最可能的原因(比如数字的类别),同期判断这个景色是否是由某个特定的原因(比如数字类别)引起的。简而言之,模子试图通过最小化这种办法函数,来找到最合适的解释,匡助它更准确地相识和推测数据背后的原因。

上述 RGM 在构兵 10,000 个熟谙图像后,在自行禁受的测试数据子集上达到了起初进的分类准确性。每个熟谙图像在熟谙过程中只被呈现给模子一次,并汲取衔接学习表情。伏击的是,主动学习只禁受那些能带来最大信息量的图像进行熟谙,因此本色用于学习的图像数目大大少于 10,000 个。这种为学习禁受正确数据,将会是后续部分的反复出现的主题。

▷  图 9. 展示了 MNIST 数据集的主动学习过程,包括互信息和变认识放能的变化。

▷   图 10   RGM 模子产生了装假分类的图像示例。

RGM 模子还可被用于识别和生成有序的图像序列,即视频。具体来说,为了生成视频,RGM 模子会辩论时辰的变化,把时辰分红不同的"规范",并在每个时辰眉目上进行调度,确保每一帧之间的过渡是特有的、天然的。

接下来,RGM 模子会对图像进行处理,把图像的空间(位置)、热情和时辰信息齐滚动为一个标准的时局,即时辰 - 热情 - 像素体素(time - colour - pixel voxels),并纪录相邻体素之间的变化。

然后,模子会把这些处理过的图像按时代分红等长的段,通过比拟不同时代点之间的互异来估算每段视频的开动状态,并基于这些估算终端生成一个新的时辰段序列。通过重叠这个过程,模子最终不错生成一个视频序列的全体结构,且每个时辰段的变化齐不错用一个节略的时势来清楚。

以鸽子扇动翅膀的视频为例,图 11 展示了鸽子视频的原始帧和翻脸化后的重建帧,以及 RGM 生成电影的过程,包括状态和旅途的后验预测以及生成的图像。

▷ 图 11 预测模子生成的鸽子飞翔视频。上图,RGM 怎么把一帧原始图像"卷"进模子里、进行翻脸化后的重构示例。它阐明模子能在保证主要信息不丢的情况下,完成从高维到低维的压缩。中图:RGM 如安在学到视频结构后,通过高层的"事件序列"生成新的、更多的帧序列。它重心体现了模子的"视频生成"功能——不单重构,还能合成新的动态内容。下图:RGM 在靠近部分(不竣工)输入时,怎么利用一经学到的统计结构来推断、补全并及时更新对整幅图像的预想。它阐明了模子具有"基于训戒的预测和填补"智力。

将 RGM 应用于声息文献时,可将像素替换为频率和时辰上的体素(voxels),组成时辰序列,例如使用衔接小波变换(CWT),并通过逆变换将 CWT 表征调度为线性声息文献进行播放。重整化生成模子对于声息比视频内容更节略,因为需要处理的数据陪同时辰唯唯独个维度。

以鸟叫声和爵士音乐为例,RGM 可对声息进行压缩并复现。图 12 展示了鸟叫声的熟谙数据,包括衔接小波变换和翻脸清楚。

▷   图 12.   RGM 对鸟叫声的重整化和生成,将鸟叫声压缩为一系列事件,并生成了访佛鸟叫的声息。

▷   图 13.RGM 对爵士音乐的生成,将音乐压缩为 16 个事件,每个事件对应一个音乐末节。

▷   图 14. 展示了 RGM 在有原始声息文献输入时的同步预测智力,访佛于音乐中的同步合奏。

RGM 还可应用于筹办推理(强化学习),从而熟谙智能体使其不详在不深信性下进行决议。在主动推理框架下,使用 RGM 进行决议的过程比单纯的预测更为奏凯。这一过程基于解放能旨趣以及与之关系的具身贯通表面。从解放能旨趣的角度看,智能体被视为具有特征状态的自组织系统,特征状态形色了智能体的类型。招引集(attracting set)的存介意味着不错用先验偏好来形色,是对于智能体怎么自组织的信息论解释。

从仿生学的角度看,RGM 不奏凯发出通顺教唆,而是通过预测通顺来限定智能体的步履,访佛于东谈主类通过外周通顺反射来限定躯壳动作。这种想法源于解放能旨趣对状态的诀别,里面状态和外部状态通过限定和嗅觉状态分开,这产生了主动推理,即限定步履自身就是推理的一部分。

▷   图 15:主动推理和强化学习(即奖励学习)范式之间的区别。

主动推理衔尾了限定表面和仿生学,它与强化学习之间的基本区别在于,主动推理中,行动是基于对行动终端的后验预测来决定的,即通过贝叶斯筹办来进行推理,这些预测开始于最小化预期解放能的计策或筹办,展示了行动的后果,减少了不深信性。主动推理中的信念更新(即感知)和通顺限定(即行动)齐不错被视为最小化不深信性的过程。这与强化学习有很大不同。在强化学习中,智能体依赖于一个预设的奖励函数,通过熟谙来更新输入和输出(嗅觉到限定)之间的函数(不绝是深度神经网络的参数)。

RGM 还可用于筹办推理。以 Atari 类游戏(如 Pong 和 Breakout)为例,RGM 不错从速即动作的终端序列中自动拼装出不详以众人水平进行游戏的智能体。

▷   图 16. 在 Pong 游戏应用 RGM 所产生中的旅途和轨谈以及怎么压缩熟谙序列,并处理事件之间的调度。

04 数据的"真金不怕火金术",怎么带来 AI 的进一步发展?

通过上述一系列实验和表面分析,Friston 特出共事在多种场景下阐扬了基于重整化群的翻脸状态空间模子(RGM)尽头灵验。在这些应用中,齐通过最小化预期解放能来进行禁受、学习和回转生成模子。重整化群的应用科罚了大规模数据处理的问题,况兼由于主动推理步履依赖于解放能旨趣,使用重整化群时相对容易竣事。此外,解放能旨趣自身是一种规范不变的变分旨趣,天生适用于不同规范的系统。

因此,咱们不错说,RGM 在多个领域中具有巨大的后劲。例如,在图像和视频处理中,它不错竣事更高效的压缩和生成,有助于检朴存储空间和进步数据传输终端。在声息处理方面,不详对声息进行灵验的压缩和生成,对于音频数据的存储和传输具有伏击有趣,同期也为音乐创作和声息识别等领域提供了新的想路。在游戏和筹办领域,该模子不错匡助智能体学习众人的计策,竣事更智能的决议和行动,这对于东谈主工智能在游戏、机器东谈主限定和决议制定等方面的应用具有伏击的鼓励作用。

RGM 模子结构节略、终端高,不详快速学习模子结构,但面前可能不适合用于复杂系统建模。改日的计议不错辩论将衔接状态空间模子调度为翻脸状态空间模子,并使用重整化规范进行学习,同期改良模子的参数化以顺应更多的应用场景。从更平时的角度看,这种基于重整化群的步履为相识和处理复杂系统提供了一种新的框架,有助于揭示天然界中遍及存在的规范不变性和结构学习的旨趣,对物理学、生物学和狡计机科学等多个领域的计议齐具有一定的启发有趣。

现存的绝大多数东谈主工智能齐依赖于大批的数据,怎么更高效地学习和诳骗这些数据,决定了东谈主工智能科罚问题的终端和智力。回来历史,古代真金不怕火金术在某种进程上鼓励了冶金术的发展,让咱们不详更好地提真金不怕火和使用金属。今天,咱们相通在尝试将原始、未经处理的数据行为"原料",从中挖掘出深眉目的结构、章程和时势,进而索取出有价值的洞见。也许,在不久的将来,具备更强数据处明智力的东谈主工智能不详像《流浪地球》中的 Moss 一样,为咱们的活命提供更矍铄的决议维持,成为咱们在搪塞复杂问题时推断最优解的牛逼助手。

* 本文参考开始:Friston, Karl, et al. "From pixels to planning: scale-free active inference." arXiv preprint arXiv:2407.20292 ( 2024 ) .