【专家论剑】蔡新元|AI共创的中国古诗词文化VR体验系统设计与实现
专家简介
蔡新元博士、教授,博士生导师。现任华中科技大学建筑与城市规划学院副院长、光影交互服务技术文化和旅游部重点实验室主任,数字光影技术湖北省工程研究中心主任,教育部动画、数字媒体专业教学指导委员会委员,国家部委特聘专家。中国文化产业协会文化元宇宙专委会副主任。长期从事数字媒体艺术理论与教育,数字光影艺术环境与景观,人工智能艺术与设计等领域的教学和研究工作。先后主持了国家文化产业发展重大专项,国家社科基金艺术学重点项目等科研项目20余项;并先后完成了国庆70周年“光耀湖北”彩车,武汉长江灯光秀等多项国家、省、市重大文化与科技融合工程。
00 引言
2019年科技部、中宣部、文化和旅游部等六部门印发《关于促进文化和科技深度融合的指导意见》,指出应加强人机交互、混合现实等关键技术开发,推动类人视觉、听觉、语言、思维等智能技术在文化领域的创新应用,开发内容可视化呈现、互动化传播、沉浸化体验技术应用系统平台与产品[1]。2022年,中共中央办公厅、国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,对国家文化数字化作出进一步战略部署。数字化手段成为当前传统文化保护的主流手段[2]。在记载和反映中国传统文化以及中国文学艺术类别的演变过程中,诗词作为一种综合文化现象始终占据主流地位,并对其他文学艺术门类和中国大文化产生了不可估量的推动作用。数字化背景下,中国古诗词文化的传承、传播亟需相关理念与技术的辅助与支撑。其中,虚拟现实( ,VR)技术在从传统文本驱动向技术驱动转型,破除传统文化与现代技术壁垒,探索内在关联与内驱力,用技术实现传统文化的传播与增值的过程中具有很大的应用空间。一方面,VR技术基于三“I”即沉浸()、交互()、构想()等特性可提供真实的时间、空间感知,通过虚拟仿真进行交互实践[3];另一方面,后疫情时代,“在线+”成为生活常态,“临场”“在场”体验需求空前提升。而人工智能的快速发展,为应用VR技术实现传统文化数字化提供了有力的支撑。
本文探索前述语境下借助人工智能、VR等技术对中国古诗词文化进行数字化设计与传播的可能,并通过中国古诗词VR体验系统“黄鹤故诗”的设计实践,探寻人工智能、VR等融入传统文化传播与教育的方法与路径。
01 中国古诗词文化传播现状与问题
1.1 传播手段落后
古诗词的创作依赖于特定的历史文化背景和诗人的个人情感因素。相较于现代汉语,古诗词在声、形、意、文法逻辑等方面具有特殊性,语言凝练且不易翻译成现代汉语。从古诗词传播来看,相关教学与传播手段落后,造成了传播困境。其中,中小学语文课本收录是古诗词传播的重要途径。它遵循“解题意,知作者;释难字,译全文;明思想,齐背诵”的模式进行教学,无法突出诗词美感,也导致学生学习兴趣不足。有调研显示,高中生群体中对古诗词很有兴趣的比例仅8.34%;在古诗词、文言文、现代文和作文四个教学模块中,对古诗词最感兴趣的学生仅占17.38%;高中生实际能背诵100首以上古诗词的仅占比46.02%[4],而根据《中小学语文课程标准》要求,一个合格的小学毕业生就应该能背诵古诗词120首。近年来,也有将古典诗词与现代传播媒介融合的诸多尝试。如电影《掬水月在手》,以文学纪录片形式,将人物生命与古典诗词有机联结,表现诗词之美。猫眼电影的购票评分榜数据显示,该片以9.3的评分始终占据评分榜前列;文化节目《中国诗词大会》开播仅10天,累计转发3万余条微博,获得了6万余条评论,18万余次转发,以及超过33万的点赞量[5]。可见,根据古诗词的本质特性选择适配的数字化形式是新媒体时代的要求。
1.2 诗画意境的体验缺失
清代画家石涛在《苦瓜和尚画语录》中有云:“字与画者,其具两端,其功一体”。它表达出字与画通过视觉形态同构诗词信息要素及传递诗人内在情感的能力,应和传统心物感应、整合化一的文化艺术观,引发诗画同源的讨论。宋代郭熙在《林泉高致》中谈到的“诗是无形画,画是有形诗”,正是对这一关系的描述。文人画宗师之一王维在《使至塞上》中借“大漠孤烟直,长河落日圆”诗句,择大漠、孤烟、长河、落日等意象,造壮美之景,构雄浑意境。可见,诗与画、情与景从创作开始就密不可分。
当前的古诗词教育缺少的正是对这一诗画意境的直观体悟之道。学生在课堂上聆听的是教师的字面解析,缺少可具身融入的画面感与诗意体验。虚拟现实技术构建的虚拟场景能够为体验者提供丰富的形象信息,并借助媒体交互这一形式,引导学习者“入画”“入境”,弥补古诗词学习中诗画意境体验缺失的不足。
02 人工智能驱动的古诗词文化 VR 系统优势
2.1 智能化的内容开发
人工智能( ,AI)综合了计算机科学、信息论、生理学等学科优势;生成式AI( AI)作为一种特定类型的AI,专注于批量数字内容的自动生成,在《2022年新兴技术成熟度曲线》中被列为最具影响力的五大技术之一[6]。生成式AI通过机器学习( ,ML)和人机协同(Human-in-the-loop,HITL)方法从数据中学习工件的组件,进而生成全新、原创、真实的产品、物品或任务。长期的PGC( ,专业生产内容)阶段为AI提供了丰富的学习数据,生成式AI的出现使内容生产逐渐过渡到人机协同、相互校正机制下的AIGC(AI- ,人工智能创作内容)阶段[7],为古诗词的教学创新提供了全新视角与实验性方向(图1)
古诗词的学习和传播需要大量的视频、音频、图像资料,但内容开发的成本高、周期长、产能有限,所以教学中长期以抽象的语言、文字作为主要材料。而生成式AI几乎不需要人类参与就可以生成高质量的创造性内容,实现文本转图像、图片或影片修复、语音合成、创建3D虚拟环境等功能。不仅带来零边际成本的内容生产方式变革,极大提升生产力并创造巨大的经济价值,而且可避免生产者主观认识和经验造成的个体偏差。生成式AI主导的智能化内容开发能为古诗词提供全新的数字内容生产和传播机遇。
2.2 强互动与深度沉浸
(1)穿戴设备拓展多感官强互动。
虚拟现实体验中的强互动以外部穿戴设备为接口,建立起人体生物信号与机器之间即时且有效的对话,引导用户积极主动发生交互,具有实时性和自发性两个特点。其实现有两个关键点:一是注重人体生物信号的捕捉;二是提升互动发生的频率。随着人工智能技术的发展,脑电仪、眼动仪、生物力学传感器等接口工具日益完善,虚拟现实强互动体验逐步实现。将强互动运用于古诗词教学能及时接收学习者的行为反馈,重新定义课堂互动的方式。
(2)高仿真场景和虚拟化身促进深度沉浸。
虚拟现实体验下,用户的眼睛、耳朵、皮肤等感官被高仿真场景和虚拟化身重塑为虚拟感官,从而达到无视外物存在的深度沉浸状态。其实现主要仰赖虚拟现实技术的虚构性、视听综合性和三维仿真性三个特性。而人工智能通过生成式的内容开发、深度学习、动作捕捉等技术使古诗词数字资源的生产趋于高效、高质,其利用高仿真场景和虚拟化身引发心灵共鸣,促进深度沉浸,让学生在心流中体会诗词之美。
2.3 显性化知识教学
显性化知识也称编码知识,知识显性化的过程即将大脑中的隐性知识重新编码,转化为可描述的内容,并用易于传播和共享的方式呈现出来[8]。虚拟现实体验直观可视、多通道、具身沉浸的特点有利于古诗词知识的显性化传播,具体效用如下。
感性意象的可视化直观。知识可视化的实质是把隐性的个体知识转化成能够直接作用于人的感官的的外显知识[9]。传统教学手段中,图文媒介的效率约为10%;多媒体教学形式的效率约为30%。古诗词中包含诸多感性意象;VR技术通过虚拟重构,能进一步还原其感官表征,提升学习效率。
复杂诗意的多通道传达。根据认知负荷理论和感觉通道效应,外在认知负荷跟材料的组织与呈现方式有关,且随着认知通道数量的增加而降低。古诗词语言凝练、结构跳跃的特性导致其文意晦涩难懂。VR技术具有多感官的特性,能对复杂诗意进行多通道传达,从而有效降低认知负荷。抽象意境的具身化沉浸。身体的形态结构、感觉系统、运动系统和神经系统都影响着人们的认知过程[10]。VR技术通过构建虚拟化身与意境体验,开发古诗词教学的具身性与情境性,实现寓身于境的效果,实现沉浸式教学,促进具身认知的建构。
03 AI共创的VR体验系统设计——以“黄鹤故诗”为例
坐落于古黄鹄矶上的黄鹤楼控两江、踏三地,立九省之中,世称“天下江山第一楼”。历代文人登临咏唱,流传至今的“黄鹤诗词”不计其数;出自李白之手的“故人西辞黄鹤楼,烟花三月下扬州”,更是成为千古名句。黄鹤故诗项目借助人工智能与虚拟现实技术,融合相关诗词学习内容、学习环境与学习活动,从教学内容、场景与交互体验三个方面进行系统设计[11],实现其内容具身认知、多感知情境与多通道交互融为一体,其设计思路如图2所示。
3.1 媒介与技术选择:古诗词场域营造
社会心理学的场域理论()认为人的每一个行为均被行为发生的场域影响。而场域则是指由心理和环境两种因素构成的主-客混合环境或曰心物场(),其强调心理因素与客观环境不可分割的连续性关系[12]。借助场域理论来剖析古诗词,意在明确教学活动中各环节与要素的开放性与关联性关系,促进对古诗词意境感悟与体验的有效思考。基于此,我们区分出中国古诗词场域的三重环境:其一,音声。音乐与诗词相辅相成,如唐宋以来的歌行、绝句、律诗和词皆可歌可唱。其二,意境。意境是诗歌的灵魂,既是外部世界“境”的内化,又是内部世界“意”的具象化。其三,品格。品格是诗词之基,能铸造民族精神,践行时代使命[13]。中国古诗词文化便是基于音声、意境、品格的咏吟场域与时代文化背景同构出的结果。由上述场域关系主导,项目的媒介与技术选择如下。
生成式内容生产。生成式AI能够进行智能化的内容开发。其中,AI绘画凭借简单的文字描述就能生成图像。基于此,项目选用AI技术协同三维建模、实时渲染等技术先重构诗中之景。首先由AI生成诗词场景原画,再由三维建模技术还原诗词场景,最后由实时渲染技术营造诗中意境,打造从具象空间到宏观背景的全方位沉浸式体验。
多模态信息输出。上述古诗词咏吟场域与VR技术沉浸性、交互性、想象性的特点相契合[14],且VR技术具有较高的兼容性,能协同多模态进行信息输出。项目选用VR技术协同语音识别技术,引导学生读出韵律,唱出美感,品出内涵,进行从浅表感知到深度认知的递进式教学。人机交互技术的应用践行教、学、做合一的观念,塑造文化品格,实现从抽象品格到具体知行的转化。
3.2 教学内容设计:诗词要素分层递进
根据教学对象特点对教学内容进行系统设计,是教学前的一个必由环节。通过分析教学问题和需求,有序安排诸要素,达成教学效果最优化。古诗词的语境与现代语境差异巨大,学习者对于“陌生感”强的文本难以发生知识和情境的迁移。中学生处于思维活动需要具体内容支持的具体运算阶段,其理解力受认知发展限制。因此,对古诗词的理解难以一步到位,需分层次完成。因此,项目将古诗词教学分为由易到难的三个递进式层级。
音声诵读。诵读是一种“有艺术意味”的有声阅读[15]。古语有云“熟读唐诗三百首,不会作诗也会吟”,其重要性可见一斑。通过有声语言,学习者能对文本中蕴含的丰富语义有初步感知。系统在音声教学层次收录了30余首黄鹤楼相关的经典诗词及吟唱,引导学生诵读感悟。
意境解析。诗词通过“意合”的方式组织语言[16],虽篇幅短小却融景融情。因此,除了字面上的意思,还需对诗词的弦外之音进行解读。系统在意境教学层次设置虚拟教师,对诗词中的特殊意象、典故等复杂内容进行条分缕析地解读,模拟真实教学活动,利用情境认知加深学习者的理解[17]。
品格感悟。诗词中蕴含着诗人对社会生活的反思与见解,对学习者的人格修养建设有着重要作用,对其进行提炼解读,是实现知行合一的重要步骤。系统在品格教学层次设置贴近创作背景的情境,引导学生对作者生平及所处的时代背景进行挖掘,探寻诗词背后的深层品格。
3.3 场景设计:诗画意境数字化还原
VR体验中的场景是由虚拟的元素构成的叙事空间,用户在此空间内完成虚拟现实体验,其设计过程需关注构图、视角、景别等要素。除上述内容外,黄鹤故诗的场景设计以还原诗画意境为总体目标,结合关键词词频分析和AI图像生成两种方法,深化教学内容与虚拟场景间的联系,具体分为以下三个步骤。
(1)词频分析驱动的关键词提取,增强虚拟场景文化认同。
词频分析(s)是对文献中重要词汇出现的次数进行统计与分析,是文本挖掘的重要手段。项目通过词频分析提取诗词中的关键词,并基于此构筑虚拟场景。生成式AI由数据驱动内容生产,样本的质量与数量决定了场景的丰富性和准确性。基于此,项目制定相关实施方案如下。
样本数计算。过小的样本量不具备统计学上的解释意义,过大的样本量将提升处理难度,确定合适的样本数十分必要,根据样本量计算公式。项目选定30首诗词中的167个词作为分析样本。
词性筛选。古诗词词性分为实字词(即今之所谓名词)与虚字词[18]。实者有意,是诗人感情幻化的实体,是情境构建的重要要素。因此,项目从样本中择选对场景构建有具象意义的名词,作为AI构建场景的主要语料。
语义误差筛查。古诗词在文体、语义等方面与现代汉语存在差异,如采用针对现代汉语的机器分词方法,结果准确率较低。例如,“空余”被机器归类为名词,但从其语义层面理解应将其归类为动词。因此,在机器分词处理结束后,应根据现代汉语释义对结果进行二次词性分类处理,有效降低语义引发的分类误差。
样本分类。场景是人与周围景物关系的总和,其最为核心的要素是场所与景观[19]。其中,景观又包含自然景观和在其基础上附加人类活动痕迹形成的人文景观。基于此,项目将所选名词分为自然场所、自然景观、人文景观三类。最终选取名词11个:黄鹤楼(14次)、鹦鹉洲(5次)、高楼(5次)、白云(3次)、青山(4次)、烟水(3次)、芳草(2次)、樱花(1次)、烟花(1次)、梅花(3次)、黄鹤(13次)。并将其分为人文景观、自然场所、自然景观三类,主导AI场景构建,见图3-a所示。
(2)人工智能驱动的诗词意境构建,文化与场景有机融合。
人工智能绘画是生成式AI在艺术领域的新拓展,其基于“输入文字-生成图像”的创作过程,打通了信息与空间融合的渠道,实现了文化与场景的有机融合。本次设计使用Disco 辅助场景构建,其原理是使用CLIP( -Image Pre-,对比语言-图像预训练)- ,引导图像不断迭代朝向所指向的画面,实施具体步骤如下。文字提示(Promt)生成。将词频分析所得的关键词植入模型化的文字描述中,生成位于图像起点的文字提示,如“A of Crane Tower on hills and ‘green:5’ with ‘ and :3’.”(引号内数字表示该单元内元素在画面中的重要性比值)。
图像文本编码。CLIP预训练了一个图像编码器和一个文本编码器,以预测文本与图像的配对关系,见图4。其中,文本编码器负责对基于“黄鹤诗词”关键词生成的Promt进行拆分解码;图像解码器负责将Promt中的关键词与数据库中的图像进行匹配,见图5。图像在多次迭代与再编码后,由初始的噪声图像转变为文字指向的清晰图像。
场景原画择选。因AI绘画作品具有随机性和不可复制性,需在多次测试结果中进行二次择选,以获得理想解。项目通过对关键词进行分类重组、调整权重等处理,生成不同的Promt用以多次测试,最终生成21张黄鹤故诗项场景原画,并从中选择3张作为后期场景搭建的主要依据,见图3-b。
(3)虚幻引擎驱动高仿真场景搭建,提升场景沉浸深度。
虚幻引擎作为开源游戏引擎,能为场景搭建提供可视化材质编辑、高仿真实时渲染、易用的代码架构等支持。其技术实现主要基于三个步骤:场景规划和模型搭建,程序化材质制作,灯光及动态渲染,见图3-c。项目希望充分发挥其高仿真优势,实现用户在体验过程中的深度沉浸。为解决诗意场景难定义和实时渲染难优化的问题,制定解决方案如下。
风格化材质编译。风格化场景主要依靠材质来定义。为保障诗意化场景的建成,项目以场景风格作为材质编译的导向,强调材质与风格的适配性。例如,场景中的黄鹤楼是具有木架构体系的典型中式建筑,材质编译时突出其木质肌理,并采用大面积、高饱和色块体现其特性,以匹配古风、诗意的场景风格。
集成材质减少指令数。项目通过传统的减少模型面数的方式实现优化,还通过集成材质进一步优化。首先将具有相似性的材质集成到同一主材质中,再创建材质实例来定义具体物体的外观,使其能在父级外观基础上进行细节调整。此操作提供了统一且丰富的视效,且减少了材质指令数,进一步提升性能。
3.4 交互设计:差异信息的二元主体传导
信息的有效传达是教学的主要任务,教学过程中包含各类差异化信息。其中,知识性信息以教育和传播为主要目的;感觉性信息则只需感受到事物运动表征的形式化方面,不需理解事物运动表征的逻辑含义和它的效用价值。VR体验中,交互是信息传递的重要途径。为协调教学信息多元化特性和学生情绪体验之间的冲突,项目从两类信息的特征差异出发,来设计系统信息交互体验方式。
图形界面主导知识性信息交互。资源限制理论认为对刺激的识别需要占用认知资源;刺激越复杂或加工任务越复杂,占用的认知资源就越多[20]。在长期的人机交互历程中,人类形成相对成熟的二维平面交互认知。因此,在处理较复杂的知识性信息时,项目选择由机器界面主导交互,将信息搭载在二维面板,再置入VR三维空间布局中,利用其桌面隐喻、直接操纵和所见即所得的特点[21],释放更多的认知资源来处理相对复杂的逻辑。
体感行为主导感觉性信息交互。感觉是认识过程的开端,是一切较高级、复杂的认识活动的基础;人的情绪体验也必须依靠人对环境和身体内部状态的感觉[22]。因此,项目以虚拟现实体验中的三维场景为载体,利用其多通道、多媒体特点,由用户感官主导感觉性信息的交互。如通过在虚拟环境中执行“开门”操作,完成场景之间的切换。用户通过虚实结合的方式与场景交互,提升体验的趣味性进而保障其情绪体验。
04 结语
本研究针对中国古诗词文化传播手段落后和诗画意境体验缺失两个关键性问题,分析人工智能驱动下虚拟现实开发的优势以及对教育教学的影响,并以设计实践项目“黄鹤故诗”为例,探究虚拟现实技术与中国古诗词文化融合的路径。其主要技术路径是:经由古诗词场域的营造,诗词要素的分层递进,诗画意境的数字化还原,差异信息的二元主体传导四步骤(对应媒介与技术选择、教学内容设计、场景设计和交互设计四环节)来对相关信息内容进行数字资产生产;并据此探索源于诗歌和浪漫主义情怀的诗意表达、基于AI算法和量化数据的理性表达、依托场景的沉浸式叙事表达三层面的差异化信息体验融通方式。最终,经由多样化技术协同,创新传统文化的表现形式,拓宽其教育与传播路径,使传统诗词文化的教与学更具开放性和包容性。
未来的研究和实践将致力于扩展平台知识容量,使其成为一个具有普适性的中国诗词文化体验系统,完成由方法探究到教学应用的转型;同时,进一步整合教育学、心理学知识,研究教育过程中的心理、生理机制,提升信息的传达效率,以期充分利用数字手段助推中国古诗词文化的传承和发展。
注释:
[1]科技部,中央宣传部,中央网信办,等.关于促进文化和科技深度融合的指导意见
[2]中共中央办公厅,国务院办公厅.关于推进实施国家文化数字化战略的意见
[3] Ö. the of ’s :A of [J]. Milli ,2018,30(120):140-157
[4]丁西军.关于上海市高中古诗词教学现状的调查研究[D].上海:华东师范大学,2010:
[5]赵淑萍,付海钲.文化类综艺节目的价值导向与传播特征:基于《中国诗词大会》(第二季)的数据分析[J].电视研究,2017(4):61-63
[6].2022 年新兴技术成熟度曲线
[7] 彭兰. 智能时代的新内容革命 [J]. 国际新闻界,2018,40(6):88-109
[8] 张民选. 专业知识显性化与教师专业发展 [J]. 教育研究,2002,23(1):14-18
[9] 王朝云,刘玉龙. 知识可视化的理论与应用 [J]. 现代教育技术,2007,17(6):18-20
[10]Bu W,Wang H. :A new for [J]. Study,2020,10(8):511-516
[11]刘革平,王星.虚拟现实重塑在线教育:学习资源、教学组织与系统平台[J].中国电化教育,2020(11):87-96
[12][美]库尔特•考夫卡著;李维译.格式塔心理学原理[M].北京:北京大学出版社,2010:47-50
[13]毛超.核心素养背景下部编语文教材古诗词教学策略初探[J].中国教育学刊,2018(1):66-69
[14] G, P. [J]. ,2003,12(6):663-664
[15]王佳,惠天罡.低龄学习者古诗词诵读的多模态学习策略探索[J].语文建设,2020,438(6):62-65
[16]韩晶.形合、意合的语用效应与中国古诗词的英译问题[J].广西社会科学,2009,173(11):107-111
[17]高文.情境学习与情境认知[J].教育发展研究,2001(8):30-35
[18]易闻晓.中国诗句法论[M].济南:齐鲁书社,2006:22-30
[19]郜书锴.场景理论:开启移动传播的新思维[J].新闻界,2015(17):44-48
[20] D. and [M]. ,NJ:-Hall,1973:1-13
[21]董士海.人机交互的进展及面临的挑战[J].计算机辅助设计与图形学学报,2004,16(1):1-13
[22]彭聃龄.普通心理学[M].北京:北京师范大学出版社,2016:83-93
