作者:任化龙 深圳忆海原识科技有限公司创始人兼CEO
深度学习及以其为基础的大模型正如火如荼,但其瓶颈也愈发明显:标注数据需求量高、硬件资源开销大、训练周期漫长,要消耗足以支撑小镇的电力资源,终需数以亿计的经费。 随着数据量进一步增多,神经网络的规模呈几何增长,矛盾无以为继。而现在,还有另一条AI发展之路—类脑计算。类脑计算是以神经科学为基础的人工智能技术;它充分借鉴生物神经系统的信息编码与运 算原理,实现多模态感知,乃至丰富灵活的认知(如学习与记忆、信息归纳与抽象、推理 与演绎、联想与想象、情感与理性、自我与共情),是通用人工智能的重要路线。本课题将分几期介绍,希望能为火热的人工智能行业集思广益,提供更多发展机会。
大模型 – 一把双刃剑
深度学习及以其为基础的大模型正如火如荼,但其瓶颈也愈发明显 :标注数据需求量高、硬件资源开销大、训练周期漫长,要消耗足以支撑小镇的电力资源,终需数以亿计的经费。更何况,随着数据量进一步增多,神经网络的规模呈几何增长,矛盾无以为继。人们不禁反思 :难道这是人工智能唯一的发展路径么?
AI的新途径 - 类脑计算
幸而还有另一条有趣的道路 - 类脑计算。 类脑计算是以神经科学为基础的人工智能技术 ;它充分借鉴生物神经系统的信息编码与运算原理,实现多模态感知,乃至丰富灵活的认知(如学习与记忆、信息归纳与抽象、推理与演绎、联想与想象、情感与理性、自我与共情),是通用人工智能的重要路线。
说白了,就是向我们自身抄作业。大脑乃至人体正是宇宙的缩影,其原理道法自然,人们却日用而不知。本系列文章将带大家一同探索其奥妙。
深度学习的理论局限 – 暴力拟合运算
回顾深度学习,它继承自上世纪的“多层感知机”,神经元模型与网络结构简单,对于生物神经系统的借鉴有限,仍以数学优化思想为核心。
深度学习采用误差反向传播和梯度下降实现训练。具体地说,即计算神经网络每次迭代的输出与真实值之间的误差,然后计算误差与参数调整量之间的关系梯度,以其找到新一组参数去尝试降低误差,反复迭代,直到误差收敛到一定程度才停止。这是一种耗费大量算力的试错搜索算法,其本质是将模型参数拟合到训练样本空间,难以真正捕捉事物之间的内生本征因果联系。而且由于端到端训练采用预定的标签类别,导致学习到的神经表征刻板,难以泛化、学习新类别。
突破数学优化思想,探寻宇宙根本原理
既然深度学习的局限性来自于其理论基础,那我们应从根本原理处寻求革新与突破。
不妨设想,神经网络能否抛开数学优化思想?要知道,数学并不完备,数学优化思想也难以圆满表达天地宇宙万物。那么宇宙的实相是什么呢?时间从何开始,空间从何产生,维度又有什么奥秘?万物之间的关系又是什么?大脑如何对时间、空间、万事万物进行表征和运算,脑中又有哪些暗合宇宙规律的机制与现象呢?知觉、意识、自我到底从哪里来?
好把旧书多读到,古今中外乃贯通!其实古圣先贤早已参透万事万物的根本原理,用一句短语做了概括 - “万法皆空,因果不空”。
“万法皆空”说的是一切事物现象,乃至一切规律,都是可以变化的,不能独立而存在(这在哲学里称为“空性”),而且都是因缘和合而成,也就是依靠相互联系与作用的建立、积累与变化而成(这在哲学里称为“缘起性空”)。
在万物变化中,倾向于将起到相对主动作用的因素称为因,提供变化的环境或客观条件或其它因素的称为缘,因即由缘显现出来,称为果 ;果能缘(动词)因,就是可以影响新的因,果也可以缘(动词)缘(名词),就是可以成为某个因的缘。
在人工智能领域,因果关系的讨论还取决于研究对象与看待问题的角度。在一种狭义的因果关系中,因果的先、后,还取决于如何看待时间维度 ;例如精进研发为因,业界彼此支撑为缘,研发成功为果,该角度尚有时间先后,简记为 A+B=>C;在一定情况下,因与果具有“共时性”,例如蒸发吸热现象,既不能说是蒸发导致吸热,也不能说是吸热了才蒸发,二者是同时相伴发生的,互为因果,简记为 X<->Y。为方便理解,勉强称之为“狭义因果律”。
“因果不空”说的是缘起性空的规律永恒存在。即便换了其它的宇宙时空,物理、化学、数学规律与我们的不一样,它们也都仍然符合缘起性空的规律。
注意,“万法皆空”与“因果不空”讲的就是空性、缘起性空的规律,本质是一回事,而不是两种不同的规律。
再来看《道德经》中言“有无相生,难易相成,长短相形,高下相倾,音声相和,前后相随”,分别从不同的维度说明了事物相对相生;还有“道生一,一生二,二生三,三生万物”,这个“一”即表示整体性,“二”即表示对立性,“三”则表示“二“与”一”合起来,即事物间的对立与统一的完整关系。“有无相生”,说的是有形有相的事物与无形无相的虚空相对相生,原来真空不空!无中生有!无就是有!
关于相对性,爱因斯坦有一段著名的话“一个男人和美女对坐一个小时,会觉得似乎只过了一分钟,但如果让他坐在火炉上一分钟,那么他会觉得似乎过了不止一个小时”,这就是相对论,表达的是以知为时,以心为知,心境相对,相由心生。
量子纠缠、真空涨落、量子叠加与不确定性等现象已经证实了前述原理,还有一些科学家们已经在积极探讨意识对量子乃至物质的影响。感兴趣的读者不妨自行查阅。
至于视觉、听觉、味觉、触觉、躯体感觉,乃至意识、自我感,甚至超越意识,我们将在后续章节中结合神经系统详细阐述。
类脑计算的主要特点 – 处处映合宇宙原理
说回类脑计算,它的计算建模是怎样的呢?这里先列举其主要特点,大家细品会发现它处处映合宇宙的原理 :
1. 生物神经元、突触、脑液环境等是有机整体,彼此的结构与功能很难独立切割 ;而类脑神经元模型充分保留了生物神经元的诸多重要运算机制,神经元各部分(包括树突、胞体、轴突)的模型,乃至突触的模型既有各自的运算机制,又共享互通信息,彼此保持对立与统一
2. 以神经可塑性为主要学习机制,符合缘起性空规律,能刻画诸多万物
3. 网络拓扑结构参考脑中丰富多样的神经环路,形成多脑区模型分工
4. 兼容相对表征 vs 绝对表征,保证了泛化能力
5. 能够编码静态表征 vs 动态表征,能够刻画时空信息
6. 不依赖固定的分类标准,可以根据认知需要动态分类、解释事物
7. 兼容端到端训练、非端到端训练
8. 存在前向学习 vs 反向学习,监督学习 vs 非监督学习等多种学习机制
9. 学习与推理相伴发生,能够实时学习与推理,学习即推理,推理即学习
10. 能够形成瞬时、短时、长时记忆,存在多种时空尺度
11. 存在可叙述性记忆 vs 非可叙述性记忆
12. 存在自下而上信息通路 vs 自上而下信息通路
13. 兼容识别式 vs 生成式任务
14. 能够见微知著,举一反三
15. 数据量少也能工作,数据量大则多多益善
下面,本系列文章将为读者逐一展开介绍。
神经可塑性 – 符合缘起性空规律
类脑计算的学习是基于神经可塑性机制。神经可塑性现象,最早由神经科学家赫布发现,他概括为“Neurons firing together, wiring together”,意即同时发放的神经元互相联接,后人称之为“赫布律”。
而进一步的神经科学发现,还有一类神经可塑性机制,神经元间的同步发放可以调整联接强度,联接强度的变化方向、大小受到各神经元的先后发放顺序以及时间差影响,这一类神经可塑性统称为 Spiking Time Dependent Plasticity(STDP),具体形式存在诸多变种。其中一种例如,神经元 A 先发放,神经元 B 后发放,那么就会建立 A->B 的联接,如已有联接,则联接增强 ;这里 A 体现为因,导向了结果 B ;反之,调换 A、B 的发放顺序,则 A->B 的联接减弱,直至联接断开,甚至可以形成反向联接,即 B->A,说明因果关系调换了。
此外,还有极多不同形式的神经可塑性,与所处脑区 / 神经环路、神经元种类、突触种类、神经递质的种类、受体的种类、神经发育的阶段等诸多因素相关 ;甚至有的还涉及胶质细胞。
可塑性的发生存在多种时间尺度 :既有极快发生的,也有较慢发生的 ;既能记住当下,所见即所得,也能潜移默化,逐渐形成长期习惯。
多样的可塑性机制、种种因素相配合,能够实现特定信息编码与处理功能,在宏观体现为丰富灵活的认知现象。类脑计算建模也必须充分考虑到这般复杂性。如果在简单均匀的神经网络上使用单一的神经可塑性机制,则难有效果。
可塑性机制的“共时性”,刚好体现了狭义因果律 ;神经元间建立联接,并不断复合、积累,逐渐形成因果链、因果网络,类似事物的因缘和合。因此可塑性机制能够捕捉事物间的内生因果联系,能够有效地表征有形有相的世界。
那么实现类脑计算只依赖可塑性就足够了么?如何形成记忆呢?能够应用在哪里?敬请期待下一讲。