返 回
人类时间有限,AI可以帮我们消费内容 对话杭州牧语工场科技有限公司创始人徐常亮博士
发布时间:2024-04-19 14:29:49

徐常亮 北大本科,普林斯顿博士。 阿里云大数据平台ODPS和机器学习平台PAI平台创始人,第一任阿里云大数据总经理。 新华社与阿里巴巴合资公司新华智云联合创始人及首任CEO。 杭州牧语工场科技有限公司创始人 杭州牧语工场科技有限公司:成立于2023年9月,旨在为个人和企业构建专属知识库与操作流程、打造个人与企业多模态智能助理。

Sora、ChatGPT等生成式人工智能的出现,可以文生文、文生图、文生视频等,未来它还会干什么?哪些行业可以最快融合人工智能,哪些行业比较难融合?今天我们请原阿里云大数据总经理、杭州牧语工场科技有限公司创始人徐常亮博士来谈一谈。

记者:Sora、ChatGPT等生成式人工智能的出现,可以文生文、文生图、文生视频等,未来它还会干什么?您认为,人工智能可以触达的边界在哪里?

徐常亮:以前,媒体内容主要分为PGC和UGC,现在又多了AIGC。

对于AIGC来说,目前主要关注的是人工智能生产内容,但其实消费端同样重要。没有消费的需求,生产就得不到更大的促进。UGC/移动互联网当初的蓬勃发展,离不开有同样体量的消费者去消费用户生产的内容。如果我们的消费者仍然是人,那么考虑到几乎全球90%的人都已经拥有了智能手机,并且他们的日常生活中大部分时间都在使用移动设备,那其实今天人类的内容消费能力已经接近饱和。这也意味着我们需要面对一些挑战,整个内容市场将是PGC/UGC/AIGC的零和竞争。例如,张楠已经辞去抖音集团CEO一职,未来将把精力聚焦在剪映的发展上,这表明他们在投入AIGC新模式,将有可能取代现在的UGC自媒体。在这个竞争激烈的市场中,有人成功就一定有人失败。

AIGC在生产端将会带来很大的变革,但同时我们也需要注意到内容的饱和问题。整个消费市场的总量是有限的,这意味着我们需要更加关注如何提高内容的消费。

我就提出一个概念:让AI帮助我们消费内容。想象一下,如果你原来需要花费天级别来阅读和理解某些内容,而现在只需要一分钟就能得到有价值的信息,这是多么有意义的事情。因此,我认为每个人都应该拥有一个AI助理,帮助我们处理那些我们没有精力或时间消费的内容。还可以让AI去消化我们人类没时间消化的信息,比如让AI去7×24小时地盯着科学显微镜、天文望远镜等,去发现还未发现的奥秘和精彩。这是AIGC在消费端的价值和未来的更大可能。

但是今天人工智能观察世界还是从数值解的角度去理解世界,就是不管黑猫、白猫能抓住老鼠的就是好猫去做的,这个一定不是最优解。我相信不少人还是更期待解析解,是明确知其所以然而使然的驱动过程,那今天已知的大模型还没做到这点。

记者:您认为耗能问题是否是人工智能算力发展的阻碍因素,人工智能算力发展的瓶颈是什么?算力发展的趋势是什么?

徐常亮:今天的能耗开销也将是人工智能发展的一个制约因素,数据中心其实已经越来越成为能耗中心,这也是东数西算要推进的重要原因。但这个经济账我相信是算得过来的,今天大模型的价值前景是值得这些投入的,当然也需要绿色能源的更快发展。但我并不觉得能耗是人工智能算力发展的瓶颈,而在于芯片的设计、显存的容量与带宽等硬件条件,以及与硬件匹配的软件生态。在现在Scaling law(规模法则)还没见到上限的时候,算力将永远供不应求,硬件、软件层面都值得大力投入去做优化。

记者:相比OpenAI等国外公司,国内的生成式人工智能发展到了什么水平?

徐常亮:在讨论大厂如何布局时,我们面临着许多挑战。以OpenAI为例,在2016年成立,那时国内外都认为AI是一个值得投入的领域,但对于如何具体实现,各方的选择并不相同。当时,国内的一些公司在资金上比OpenAI更为充裕,但他们对于AI的应用方向也并不明确。直到ChatGPT取得成功后,大家才开始大范围关注内容生成方面的应用和能力。

我在新华智云时,在2017年提出了MGC(机器生成内容)的概念,这与现在热门的AIGC异曲同工。事实上,在2018年,美国西北大学新闻系的教授研究AI内容生成的时候,就援引了新华智云的工作,而当时GPT还没有引起太多关注。大家都在摸索中前进。

Sora的快速出现是值得敬佩的,是ChatGPT之后,又一个大规模算力加大规模数据胜利的成果。从时间线上看,它可能只花了一年时间就实现了突破,这也意味着它已经找到了可行的技术路线。我相信国内半年内就能推出自己的版本。

在技术方面,Sora的技术让我们看到了算力和数据的重要性。当然,人才也是不可或缺的,但相比之下,算力和数据更重要。因此,我认为各大厂都有很大的潜力,应该加快投入,争取技术突破。其中,尤其是阿里,过去在云计算板块的不断投入,使得阿里的算力设施非常强大,加上一直以来的数据沉淀,很期待它的突破。

记者:文生视频的门槛在哪里?

徐常亮:从文本到文本的生成,信息量相对可控。我们可以明确知道需要修改的地方。但视频生成本身的信息含量要大得多。要生成一个几秒钟的视频,就需要处理大量的帧数。

当我们观察那些包含众多参数的视频效果,如光圈大小、焦距等,我们会意识到,要描述一个电影镜头,不仅需要了解这些参数,还需要掌握推、拉、摇、移等摄影技术。这些不仅涉及信息量的差异,还涉及专业技术的门槛。

实际上,有很多基于OpenAI的上层应用正在兴起,并获得了大量的关注。这些应用在不同的平台上都有出色的表现。谁先进入这个领域,并开发出有价值的应用,谁就有可能取得领先。

基于OpenAI开发的视频特效工具,我认为非常有价值,完整制作视频还是需要一个工作流。以做短剧的场景为例。做短剧的起点在于创意,从剧本创作、分镜设计,到角色塑造和场景细化,再到镜头语言的定义,每个环节都至关重要。拍摄一部电影更是一个复杂和漫长的过程。2020年我们曾经讨论过使用AI拍摄电影的可能性,甚至聘请了央视的导演和制片人参与。然而,由于电影制作的复杂性,我们最终决定暂时搁置这个项目。但看到今天的Sora,包括去年出现的Pika,用AI来拍摄短剧或者电影会越来越成为可能,只要我们去实现一个大模型(或者智能体)控制的工作流程。

记者:阿里、百度、华为等大公司都在做大模型,很多小公司则在做AIGC的短视频、动漫等。你们公司主要在AI领域做什么?

徐常亮:做大模型这件事,如果不是独角兽规模的公司,很难实现。即便是独角兽公司,也需要持续融资来支持接下来的商业化进程。我们更倾向于打造智能体。

对于小创业公司来说,我们可以利用底层模型做一些应用,其中的难点在于如何规划。你需要选择一个固定的或特定的领域进入,而不是追求通用性。例如,我们去年选择进入客服领域,智能问答正是大模型的强项。目前,我们的智能客服已稳定运行一个多月,不仅具备回答固定问题的能力,还能进行售前咨询,销售转化率已达到10%以上。这相当于实习员工或新招的临时工的转化率。我们期待通过进一步调整,超越人工水平。

这一流程表明,围绕应用场景,整理数据、建设知识库、设计回答流程至关重要。构建知识库是最大的挑战。为此,我提出了Data Agent的概念,即处理数据的智能体。它能从复杂的聊天记录中抽取重要内容,辅以大模型和人工筛选。这一理念未来也可应用于视频创作等领域。

记者:您觉得哪些行业可以最快融合人工智能,哪些行业比较难融合?很多人就在担心自己的工作会不会被AI代替。对于这个问题您怎么看?

徐常亮:只依赖于电脑就能完成的工种,比如程序员、海报设计师、视频编辑等,将会较快地融合,或者被显著降低门槛,让非专业人士进入甚至直接AI替代。还需要人类行为交互涉及多方合作的行业还需要一定时间,但具身智能/机器人的发展也会带动更多行业的自动化和智能化。

现在大家都在谈论“AI原生”公司,尽管人工智能在某些领域取得了进展,它们并不一定能完全替代人类,但确实有些岗位会被替代。例如,尽管有人期望机器人能帮我们扫地、做饭,但现实是它们更多地被用于写诗作画等领域。因此,如果我们不专注于实体机器人,那么我们应该优先考虑替代PC原生的工作,如电商客服、代码生成、海报制作和视频制作等。这些工作在很大程度上依赖于PC技术,因此它们可能是首批被AI技术替代的行业。相反,那些需要大量人际交往的工作可能更难以被替代。

还有就是AI在科学方面的可能性,有人认为Sora可以替代人类构建世界模型,认为我们无需再去研究物理规律。我不太认同这种看法。Sora可以帮助重建直观的感受,就如人类学骑自行车或踢球等,也并不懂背后的物理学原理。然而,若要真正创造一个世界,我们需要这些原理作为基石。尽管如此,许多事情属于实验科学,例如最初飞机的飞行并非完全基于空气动力学的完整计算,而是依赖于观察和实验。这种直观感受与背后的原理是两个不同的层面。

人工智能对整个人类社会都具有重要意义。它使我们能够生产、创造之前难以想象的事物,并具备强大的推理和消费能力。今后,我们可以利用它们来观察微观世界和外围宇宙,当发现异常时,它们可以提醒我们进行进一步的探索。通过深入思考,甚至和AI一起配合,我们可能会发现背后更深刻的原理。

来源:都市快报   作者:记者 顾国飞   编辑:陈俊男