AI技术将生产效率提升3倍无障碍影视制作迎来新机遇-科技频道-杭州网

AI技术将生产效率提升3倍无障碍影视制作迎来新机遇

发布时间：2024-06-21 08:34:17

“画面上出现一只毒蜘蛛，它正在蛛网上缓慢爬行，透过蛛网看到，这里是东南亚某警局……”这是电影《消失的她》无障碍版本的讲述词。近日，优酷APP“无障碍剧场”宣布上线AI讲述语音包，将AI大模型技术用于无障碍内容制作。一个可见的趋势是，AI大模型的发展正在为无障碍影视行业带来新的可能。

从具体体验来看，这类无障碍影片类似“广播剧”，播放同时加以辅助讲解，帮助视障观众了解剧情。目前，视障人员在视频平台上通过身份验证后，就可免费观看无障碍版影片。

据介绍，优酷通过自研的音色训练大模型，智能提取了明星声音语料，为视障用户提供还原度较高的AI讲述版本内容。此外，依靠音视频分离大模型技术，视障用户可以在讲述内容和影片默认音轨间进行切换。记者了解到，音视频分离模型能够高效准确地从混合语音信号中分离出不同说话者的声音，可用于音视频内容创作，例如自动从视频中分离出不同人物的对白、背景音乐等，方便后期编辑和处理。

事实上，一部无障碍影片的制作包括撰写脚本、配音、合成视频等流程。据中国盲文图书馆介绍，以前在撰写无障碍电影的脚本时，专业制作者需要反复观看电影13至15遍，找出影片中可插入解说的“间隙”，才能进行脚本编写、配音合成，完成整个过程大概需要30天。

对此，腾讯在线视频副总裁李大任表示，“AI大模型大幅降低了无障碍影片的生产成本，提高了生产效率。”前不久，腾讯与中国盲文图书馆合作推出的“无障碍剧场”，上线了首批184部影视作品。据了解，腾讯自研的多模态长视频理解大模型，可实现对镜头、片段、视频的层级化剧情理解，且能够通过智能识别，自动找全需要补充解说的间隙，并生成画面描述的脚本初稿，供制作人员参考。另外，AI可以将脚本文字直接转化成语音，同时把这条旁白音轨插入到原片解说处，完成配音与合成剪辑。

据悉，在大模型技术的“加持”下，一部无障碍电影的生产过程可以压缩到10天，整个生产效率提升至原来的3倍。李大任解释道，“现在核心技术难点还是在于AI对场景动作的识别准确性以及覆盖率，AI模型分辨力还没有那么完美，这也是需要制作人员润色脚本的关键因素。”

有业内人士分析认为，无障碍视听内容的受众不仅局限于视障人士，老年用户对此也有较大需求。因此在AI大模型的辅助下，无障碍视听能为老年人以及视障人士提供多层次、多样化的信息交互模式，其行业本身也将加快规模化进程。

来源：每日商报作者：记者姚含烨编辑：陈俊男