间接计算模型和间接形式化方法融智学进

《融智学进阶文集》01:间接计算模型和间接形式化方法

01-间接计算模型和间接形式化方法_邹晓辉.pdf

怎么采用融智学七遍通方法熟悉原创文本?

摘要:

本文旨在:从人机交互界面与协同计算程序结合而构成协同智能计算系统角度,论述间接计算模型和间接形式化方法所支持的结合优化云计算技术原理。本文在系统回顾图灵可计算理论、克莱尼的小字符串形式理论、冯诺依曼数字计算机体系结构和图灵人工智能判定假设等前人理论研究成果对主流数字计算机的通用范式影响的基础之上,着重介绍了笔者设计的间接计算模型和大小字符串兼容的间接形式化理论,并以中文信息数据为例介绍了协同智能计算系统原型的设计构想。其意义是该成果有利于从数据中心到知识中心优化云计算。

0.引言

本文旨在:从人机交互界面与协同计算程序结合而构成协同智能计算系统的角度,论述了一种间接计算模型和间接形式化方法结合所支持的优化云计算技术原理。

图灵可计算理论[1]、克莱尼字符串形式理论[2]、冯-诺依曼数字计算机体系结构[3]和图灵测试的人工智能判定假设[4]等前人理论研究成果,是本研究的基础。间接计算模型提供的一系列好算法+间接形式化方法所提供的最优化数据结构=孪生图灵机虚拟的计算程序。首先,它是对图灵可计算数在计算目标域的收敛,进而,它是对计算复杂性之NP完全问题[5]在其如何来实现由P到NP深化理解和怎样实现由NP到P简化表达的双重转化过程中所涉及转化限制条件的揭示,之后采用大、小字符串兼容的间接形式化途径,不仅是对克莱尼小字符串形式理论的优化改进,而且还可扩展到字符串以外的处理,涉及:字、式、图、表、音、像、立体、活体等多媒体形式,以中文信息数据处理为例介绍协同智能计算系统基本设计构想[6]。其意义是该成果有利于从数据中心[7]到知识中心[8]优化现有的云计算[9]。

1.从宏观、微观和中观三个角度进行探索

基因文本及其系统工程蓝图、理想分类集与信息基本定律,分别从宏观、微观和中观三个角度,对文本基因及其表现形式或可能的人机交互界面、数据结构及其表现形式或可能的分合机理、形式信息及其内在原理或可能的变换法则三个方面进行必要的理论探索,从而奠定本研究的认知前提或思考范式。

1.1以汉字汉语为例,描述基因文本及其系统工程蓝图

本文均限定在基因文本及其系统工程蓝图[10]这个既可间接计算又可间接形式化表达因而更易于自然语言处理与理解的文本基因及其表现形式或可能的人机交互界面的范围内来讨论。

图1与优化数据结构和好算法配套的文化基因系统工程蓝图(言和语的关系及其数理描述)

由图1可见,汉字汉语有两类基因文本,即可视为子全域元素的汉字基本笔画和汉语单音节字,其特征是可且易枚举,这是简单的基础文本;可视为超子域元组的汉字及偏旁部首和汉语的言即字及语即各级字组(繁杂的衍生文本),其特征是经过理想分类之后放在孪生图灵机双列表中,不仅可能而且容易进行有针对性地搜索。试问:笔者凭什么能够这么说呢?

这是因为图1所述的与优化数据结构和好算法配套而组成的文本基因系统工程蓝图告诉了我们这样几个道理:它揭示了“文本全域=子全域+超子域”涉及“目标域=已知域+未知域”这样的优化数据结构,并指明了“未知域=目标域-已知域”这样的可导向很好算法的收敛策略。前一个公式描述的是理想分类集,而后两个公式描述的是广义和狭义的信息方程。

其中,根据{基本笔画}可构造{各类偏旁部首}进而可构造{单音节字},根据{单音节字}可构造{各级字组}。该两类汉语文本基因及其构造原理,结合下述理想分类集(图2)、信息基本定律(图3)和孪生图灵机(图4),便可以导出一套高效处理图1所述基因文本及衍生文本的协同智能计算系统方略。

下面介绍理想分类集[11]及其蕴含的信息基本定律以及如何通过细分最优化数据结构而可导出形式信息处理的最佳方略。

1.2 以二进制数为例描述理想分类集

图2 理想分类集及其蕴含各种可能的分合机理直观示意图

由图2可见,笔者对Σ*={ε,0,1,00,01,10,11,,,,,…}所做的理想分类:单一集合、分层集合、标志集合以及原先不做这样细分的杂多集合(即Σ*)。笔者以二进制数为例这样来描述理想分类集,不仅可揭示其中蕴含的信息基本命题,而且,还可通过这种细分,为进一步最优化各类数据结构提供一种切实可行的方略,更重要的是:这样论述理想分类集可做到言简意赅,对识别、理解和表达均具有事半功倍的效果。

原理1:最优化理想分类集是把通常的集合进一步区分为两大类型,即:杂多集合与理想集合,其中,前者,包含康托集合与广义集合(即群体,涵盖个体的自然分布或无组织群体、自组织群体和他组织群体);后者,包含单一集合、分层集合和标志集合。可最优化的理想集合是本文探讨的一个研究重点。

定义1:单一集合是只涵盖单一元素的集合。以二进制数为例的单一集合,即:{0,1}。以十进制数为例的单一集合,即:{0,1,2,3,4,5,6,7,8,9}。由其元素的复制和重组而派生的元素组合(简称:元组),因为不超出其单一元素基因文本符号可能的排列组合范围,而仅仅是其基本元素复制和重组所造成的结构变化,且仅仅是复用或重用的数量在总量上的增长或者在基本序位关系上的变换,因此,它被形象地命名为子全域,其特征在于单一集合或子全域的元素的数量确定而不重复,其辖域内元素的顺序和位置(简称:序位关系)均具有唯一守恒的特性。

1.3 以理想分类集为例描述信息基本命题

1.3.1 第一信息基本命题

定理1:子全域元素的“序位关系,唯一守恒”。子全域可作为测量和计算超子域的基准参照系,即:单一集合可规范分层集合的元组进化发展。

定义2:分层集合是基于上述单一集合而通过复制和重组而逐层进化派生的。它决定各个层次的元素构造元组的可能,其特征是进阶层式化。以二进制数为例的分层集合,即:{0,1}、{00,01,10,11}、{,,,,,,,}、…。其进化发展阶梯上各个层次形式(简称:进阶层式)包含由单一集合直接复制过来的第一进阶层式,通过其元素及元组的不断复制和重组进而派生出后续第二、第三、第N进阶层式及其元组的进化发展过程,其特征在于分层集合及其元组的序位关系均不重复,各进阶层式及元组不仅数量确定而且其相互之间的序位关系均具唯一性。因而,分层集合的各进阶层式可作为枚举或优化搜索其中蕴含各个成分——元素及元组的应对参照系。

定义3:标志集合,是自然人主体和计算机代理根据特定的目标从单一集合与分层集合中选择设订的范围或领域,又称:目标域。它是自然人主体及其计算机代理协同选订的特定目标范围某些具体的单一集合和相应的分层集合中某些具体的进阶层式所构成的集合。例如,本文介绍的协同智能计算系统选订的{二进制数}、{十进制数}、{英文字母}、{中文笔画}和建立在它们基础之上的或与之配套或与之等价的各类标志集合,如特定年龄段学生必须熟悉的一定数量的{单音节字}以及记录{通用常识}和{专用知识}的进阶层式化{汉语字组}——等价于与之相应的{英语的词与词组},其特征在于标志集合或目标域所涉及的基准参照系是确定的而其应对参照系各个进阶层式是可确定的,尽管其中的未知域元组具有不确定性,但是已知域元组具有确定性,所以,容易选订最优化数据结构和最好算法,从而,可显著地加速目标域内各个进阶层式元组的枚举和搜索的进程。这有利于优化汉语及中文信息处理的双文双语化进程,优化基于统计的机译新策略。

1.3.2 第二信息基本命题

定理2:超子域及其各个进阶层式的元组,含子全域元素,一旦具体的目标域元素及元组出现两个序列的对应数据,无论它们属于已知域,还是未知域,只要可做到“同义并列”(含:同意并列)且满足一一对应的函数关系,那就可在不同类型的两个序列的对应数据形式之间做预约的相互转换或彼此替代。

图3 信息基本命题[12]示意图

由图3可见描述子全域元素与描述超子域元组虽然均满足特定的序位关系唯一守恒的第一信息基本命题且具有异义排列序趣简美的特征,但是,与第二信息基本命题相比较,则分属两个等级,前者是最基本的,后者在图3所示的一组基本法则中虽然位居第二但与其配套的另外三个法则相比较之所以具有更突出的地位,其原因就在于它所具有的普适性和关键作用。因为,第二信息基本命题是相互转换的基本法则,简称“同义并列、对应转化”法则。代数的恒等变形所依据的是这个法则。生成句法基本公式(即S=NP+VP)所依据的当然也是这个法则。像这类满足第二信息基本命题的例子还很多①。如果说单一集合和分层集合共同确定的主要是唯一守恒的序位关系,即:基因文本②所记录的可用真值方式来判定其子全域元素以及超子域各个进阶层式及其元组的序位关系,那么,把它称之为广义的基因文本(简称:广义文本③)记录的本真信息就是表达恰当且可理解的。因为,无论是对未做进一步细分的杂多集合,还是对已做过精细划分的标志集合,在本质上都是基于上述的单一集合和分层集合才能做到更透彻的理解和更恰当的表达。

2 间接计算模型和间接形式化方法的结合

因间接计算模型具有计算机代理与自然人主体之间既可分又可合的分布计算与并行计算的基本特征,加上和与其配套的间接形式化方法一道共同构成的孪生图灵机恰似一个天平,

即:左列表id(以自然数顺序代码构成)数据结构类型,就像订制的标准化计量砝码,而与之一一对应的右列表ge(以预留格的位置及其相应)数据结构类型,则像等待被称量的任意个性化物品,在此,所不同的就是天平及其砝码和被称量“物品”是虚拟的。因此,可用天平法则来称谓第二信息基本命题④。由此可见,第二信息基本命题是构建孪生图灵机的理论依据。

图4 从a到c逐渐收敛的孪生图灵机原理[10]示意图

由图4可见,左边a是由并行的两图灵机组成的一个虚拟的孪生图灵机,中间b和右边c均可视为左边a的等价形式,且各具特征其中b描述基于“同义并列、对应转换”法则而建构的天平式计量转换装置,其构造原理由实施例c描述的基于可穷举汉语单音节字的文本符号有限集来说明。遵循定理2而构造的“双列表”,经过广义双语文本的理想分类可实现:数与字之间或机与人之间的合理分工与高度协作,故具有可分可合的协同智能计算特征。其运行方式可达到标准化与个性化融为一体的使用效果。图4所示的a、b、c三种基本形式具有一个共同的特点:它们(各类数据的“双列表”)都是由左右对称的虚拟表(VTL和VTR)所组成的;而a、b、c三种基本形式又各有其自身独特性:并行计算模型a是纯二进制数设定的可计算数上限;分布计算模型b是左列表十进制数和右列表可计算格之间一一对应关系的体现,以虚拟ge格的形式来进行虚拟计算,进而,可为协同处理不同类型的数据结构提供一系列通用的转换平台;虚拟云计算模型c是左列表十进制数和右列表可间接计算的单音节字之间一一对应关系的体现,是以汉语为例所体现的间接计算模型与间接形式化方法的结合。这就是图4从a到c逐渐收敛的孪生图灵机原理。这样设计的目的在于为最优化数据结构和好算法的选用提供一个协同智能计算系统平台。因为由a到b再到c可计算数的上限是在依次逐步收敛的,最重要的是b和c两类虚拟的孪生图灵机的结合不仅可让间接计算的文本数据有很好的收敛性,而且,还可为算法的优选和数据结构的优化以及进一步为作广义文本的理想分类提供典型实施例。因此,可以说,由间接计算模型和间接形式化方法的结合而成的孪生图灵机是定理2的模型化,其中b模型是抽象的具有普适性的宏观模型,c模型是以汉语为例而展示的具有实用性的微观模型。

引理1(第二信息基本命题形式化:目标域的信息方程):当基准参照系和应对参照系都确定时,其中,因为存在“目标域=已知域+未知域”,所以“未知域=目标域-已知域”至少存在分布解,其所指的元组在应对参照系中的序位关系通常是便于枚举或搜索的。实际结果是可由查全率、查准率和重用率及复现率来严格检验衡量。目标域的信息方程可被视为形式化的第二信息基本命题,因为它实质上是天平法则在有限目标域范围内的变换,即在可预知结果(恒等式)的情况下寻找方程式的求解途径。数学表达式Iu=Id-Ik即目标域的狭义信息方程。

3 以汉语处理为例描述协同智能计算系统

下面笔者以中文信息数据结构优化处理为例来介绍实用的虚拟孪生图灵机的一个典型实施例。它是一个典型的协同智能计算系统。其基础和核心是笔者结合中文信息处理的实际需求而构造的一个数据库,它就是基于间接计算模型和间接形式化方法相结合的协同智能计算系统。因良序化数据结构自然蕴含着很好的算法,故汉语的单音节字和由它组合衍生的各级字组,一方面,可发挥计算机处理标准化形式信息自动生成的优越性;另一方面,又可发挥自然人熟悉个性化形式信息处理的习惯,即可从自动采集的数据中进一步遴选出汉语使用者普遍认可的语辞作为解释汉语单音节字即言的各个具体义项的用例字组,作为进一步进行计算机辅助系统自动计算和统计的基础。

图5 已间接形式化的言(字)和语(字组)关系数据库[14]

由图5可见,左边呈现的是可并行计算的一系列虚拟孪生图灵机,中间呈现的是可且易计算的矩阵(mn)及线性方程组(∑amnxn=bm),而右边呈现的则是已经间接形式化的言(字)和语(字组)及其相互关系。语(字组)此处即辞语(即相当于英语的词和短语或词组)均由言即字逐级组合派生而来。分布函数公式A=(∑nixi)[15]涉及广义集合(A)以及标志集合(nixi)如{单音节字}通过查询以{基本笔画}为例的单一集合可构成以{偏旁部首}为例的分层集合,反之可通过计算机辅助系统获得并统计目标域标志集合的具体标志值和个体数。

以下结合图5对该言和语的关系数据库实例作具体说明:

首先,在图5所示的数据库中,目标域不仅实现了言(字)和语(字组)及其相互关系的间接形式化,而且,可随时进行间接计算,无论是枚举,还是搜索,都非常方便、准确而高效。也就是说,图5所表示的协同智能计算系统,不仅其“检全率”和“检准率”均有质量保证,而且其“重用率”的计算和统计也十分方便、准确和高效。这既是引理1的应用实例,也是可用于对引理1进行验证的实施例。具体操作可在目标域进行。

接着,必须指出该数据库,对于计算机而言,就是一系列标准化的孪生图灵机;对于自然人而言,则主要是数字计算机辅助工具平台。它之所以特殊而可称之为是一种协同智能计算系统的理由主要在于其核心涉及一系列具有协同智能计算本质的虚拟的孪生图灵机,因定理1与定义1以及定理2和定义2与定义3以及引理1的指引或揭示,隐藏在杂多集合中通常是视而不见的三类细分的优化数据结构,以及同时隐藏在一系列左列表之中可说是数学家们早已发现的各类好算法,均可通过一系列虚拟的孪生图灵机原理由“非显而易见”(NP问题只是其特例)转化为“显而易见”(P问题也只是其特例)。这样,笔者对汉语的言(字)和语(字组)的关系进行的间接形式化处理的意义,就能逐步地被习惯于直接借用基于小字符集或小字符串处理的已有各种程序语言表达方式来试图直接把汉语做分词处理的同行们所理解。

最后,值得提及的两点:I因为,根据以汉语为例的普通语言学和计算语言学两方面的研究成果可以断定:用基于“言本位”的语言科学原理来处理大、小字符集的方式,均可采用孪生图灵机的间接计算模型以及间接形式化方法,故中文数据处理不必再非借用处理小字符集的做法不可。II因为,现有的各种汉语分词方法均不可能做到十分彻底,即:所谓分词充其量只可做到接近“标志集合”似的分类,不可能做到“分层集合”那样彻底。

图6 针对八类数据的间接形式化处理原理[16]示意图

由图6可知,“字-式-图-表-音-像-立体-活体”八类数据均可基于双列表而间接形式化。此类虚拟孪生图灵机具有的(双列)表格化、(左列)数字化、(右列)字组化,就是间接形式化方法及其处理装置所具有的“三化”功能。而在图6中所示的“文”即广义文本,“义”即:孪生图灵机、双列表、序位恒等式协同记录(理解或表达)的序位关系。

4 结 论

本文所谓孪生特指间接计算和间接形式化结合具有的孪生特征或基本属性。它刻画了“孪生图灵机虚拟计算程序=间接计算模型提供的一系列好算法+间接形式化方法提供的最优化数据结构”的本质属性。关键步骤:由a到b利用间接计算模型对图灵可计算数在计算目标域内进一步形式化收敛以保证提供一系列好的算法,由b到c对计算复杂性之NP完全问题在其如何实现由P到NP深化理解和怎样实现由NP到P简化表达的双重转化过程中涉及的转化限制条件“N可有可无”的内涵加以揭示,即:做间接计算和间接形式化表达。其中,采用大、小字符串兼容的间接形式化方法涉及数据结构的最优化处理,这不仅是对克莱尼字符串形式理论的优化改进,而且还可扩展到小字符串以外的字、式、图、表、音、像、立体、活体等多媒体形式以及广义文本即各类形式信息的计算机辅助处理。

综上所述,可见:间接计算模型可提供目标域内最佳路径或最好算法,间接形式化方法可提供目标域内最优化数据结构,两者结合构成计算机代理(系统)与自然人主体(用户)互动的协同智能计算程序⑤,加上基于知识本体的高校学科建设在“教、学、研、用、管”各类活动的支持下而不断优化的人机交互界面,即可获得一个理想的协同智能计算系统。从而可为协同智能计算系统的特例-云计算乃至云端计算及其所涉及的分布计算、并行计算、网格计算,提供一种更高水平的协同智能计算,可实现从数据中心到知识中心的最优化的云计算。⑥

致 谢

首先,对陆汝黔院士(因其支持并曾鼓励笔者发表自己的原创成果)和张钹院士(因其


转载请注明:http://www.92nongye.com/xxnr/xxnr/204626912.html

  • 上一篇文章:
  •   
  • 下一篇文章: 没有了