首页 > 情感

对话商汤首席科学家王晓刚*AI 大模型只强调“大”是严重误导

情感 2023-05-22

  2023522(农历202344),让4000GPU协同连接,能高效并行去做运算,这里面有许多的Know-How

  

  ChatGPT和国内产品都在不断进化,两者可能存在着非线性、加速增长拉开的差距。

  

  通用人工智能不是一个静止的点,而是一个需要不断突破的新领域。

  

  机器人AI人工智能223

  

  商汤科技内部有一个略显神秘的部门:人工智能伦理与治理委员会。去年,他们发布了《智能伦理治理年度报告》,提出AI的发展应“负责任且可评估”,并制定了内部监管要求。

  

  这像是提前回应了年初马斯克等人呼吁暂停AI研究的言论。

  

  当国内企业竞相投入大模型研发时,商汤已经抢跑了一年。这是一家看似“万事俱备”的公司,对AI的发展有充分的预案。

  

  2014年商汤成立时,人工智能被看作一条通往未来的赛道,但躬身入局后,AI四小龙们发现这条赛道从技术到商业落地仍有着众多壁垒,曾被誉为“亚洲AI第一股”的商汤目前还未实现盈利。如今他们为国内政企客户提供包括智慧出行、智能座舱、手机SDK在内的AI解决方案。

  

  今年初,ChatGPT重新带火了整个人工智能行业。410日,商汤发布了“日日新SenseNova”大模型体系,以及“商量”、“秒画”等一系列AIGC应用,成为继百度、华为之后,第三家发布大模型的国内企业。

  

  此时,社交媒体的热搜话题已经从“什么时候能用上国产大模型”,变成了“我们和ChatGPT差距有几年”。

  

  “不好简单用时间来衡量,”商汤科技的联合创始人、首席科学家王晓刚认为,一旦AI收到用户的海量反馈,“智慧飞轮”转起来,模型的进化速度将一日千里。

  

  王晓刚2018年便开始带领商汤研发团队开发大模型,起初是视觉大模型,2021年切入NLP自然语言模型等领域。此前,他先后就读中科大少年班、香港中文大学和麻省理工,在顶级的国际期刊和会议发表超过300篇论文。最近半年,作为商汤的技术负责人同时也是绝影智能汽车业务的一把手,他频繁出现在公开场合,推介公司的技术成果。

  

  王晓刚告诉雪豹财经社,公司在2018年就投入算力建设,是一个非常有前瞻性的举动,但他认为,这不是一个大力出奇迹的行业。他回顾了商汤大模型的研发过程,反复强调“Know-How”的重要性,对目前国内热炒的“万模之战”,他也冷静地提出了自己的看法。

  

  以下是雪豹财经社与王晓刚的对话节选(经编辑):

  

  商汤科技联合创始人、首席科学家王晓刚

  

  雪豹财经社:商汤科技是从什么时候开始做大语言模型的?

  

  王晓刚:2018年,商汤把总部落在上海时,我们就提出要建超算中心,后来才有了大装置的建设,奠定了算力基础。我们模型的研发是从视觉开始,先做出了有10亿参数的视觉模型,随后发现当视觉模型体量变大后,它能体现出极好的通用性,小模型也会受益。比如,早期的智慧城市交通项目涉及不同场景下人、车、物的识别,当时需要做出各自的专有模型,后来我们发现一个通用大模型就可以全覆盖。随后,我们在2021年开始了自然语言大模型研究,2022年我们研发了320亿参数的全球最大通用视觉模型,并开源了多模态模型书生2.0,今年3月书生2.5开放给社区,这些最终促成了我们的“日日新”大模型体系。

  

  雪豹财经社:我们体验了商汤的“商量”和“秒画”,感觉在中文理解方面的表现可圈可点。你们是如何教模型作诗的?

  

  王晓刚:我们首先要解决的是工程问题:4000GPU(图形处理器)协同连接,能高效并行做运算,这里面有许多的Know-How(技术诀窍);其次要对模型做多轮训练。一开始,让模型写出一首质量过关的古诗是很难的,经过多轮对话的训练,包括一些辅助语料的投喂,才能逐渐让模型理解汉语的规律。而秒画也是源于我们自己本身的语言模型,因而它对中文语言的理解,生成的图像描述才更加准确。外界方式中,有用英文直接汉化喂给AIGC模型,这可能就会让模型产生误解,影响生成图像的效果。

  

  雪豹财经社:ChatGPT是一个现象级的AI产品,也带火了国内的大模型赛道,这款产品对你有什么启发?

  

  王晓刚:ChatGPT证实了我们的一个判断:随着模型体量的增加,人工智能的天花板会不断提升。这点是非常确定的,也是商汤一直坚持的。2022年底公开的ChatGPT-3.5,带来质的改变的是它对任务的算法处理能力。过去模型学的是数据,但GPT-3.5学习的是任务,而且可以不断解锁新的任务,这个给到大家新的启发。另一个就是AIGC带来的用户反馈,我们叫做“智慧飞轮”,在社区中,不只是专业研究员和科学家,还包括设计师和其他各行各业的人,大家一同参与模型的训练和制作,推动AIGC能力不断进步。

  

  雪豹财经社:国内AIGC产品跟ChatGPT有多大的差距?有企业家说是2年左右。

  

  王晓刚:我觉得这件事不能简单地用时间长短来衡量。单论模型基础能力和训练基础设施,大家都有着一定积累。ChatGPT的特别在于,当它出现的时候,全世界大量的人参与到数据创作过程当中。一方面使用模型创造了很多高质量数据,这些数据反过来又迭代,促进模型能力的提升。因而这是一个加速变化的过程,所以有可能是一个非线性、加速增长拉开的差距,应该用动态的眼光来看待,大家都在不断进化。

  

  雪豹财经社:大模型是目前创投界大热的赛道之一,你怎么看“智能涌现”和这场“万模之战”?

  

  王晓刚:今天国内谈大模型都在强调“大”字,但我认为背后还有很多重要因素,才会出现“智能涌现”,比如许多实现层面的Know-How。如果只强调“大”,单纯依靠模型体量实现“智能涌现”,会有严重的误导性,会让我们浪费很多资源和时间。关键是要结合行业实际需求,大模型不仅要具备相应技术能力,还要有效率,还要有商业化落地场景,这才是这场“万模之战”的意义所在。

  

  雪豹财经社:商汤的大模型团队一共有多少人?

  

  王晓刚:“日日新”的研发涉及到商汤整个研发体系和研发团队,比如大模型的基础设施研发,一个部门就有几百人,他们的工作就是训练系统底层架构。要把一个大模型训好,必须从底层架构、任务数据收集、应用反馈等方方面面都优化到极致,不是几个人能完成的。我们商汤的研发体系正在被大模型重塑。

  

  雪豹财经社:“日日新”大模型和“商量”“秒画”等AIGC应用,在内部测试中有没有让你感到惊艳的表现?

  

  王晓刚:模型发布前要做很多维度的测试,我们有专门的团队在做这件事。拿“商量”来说,测试时给它出一道作文题,它并不会一次就给出一个完美答复,需要通过多轮对话把不完美的地方告诉它,它能快速学习不断修正给出更好的答案,让我惊艳的是它强大的学习能力。我们的AI数字人视频生成平台“如影”就是“商量”起的名字,我们问为什么,它回答“如影随形嘛”。

>>>>完整章节全文在线阅读  <<<<

免责声明:以上内容由文文说说网收集整理,文章均来源于网络,转发只是为了更好的传播知识,版权归原作者所有。

本文地址:http://www.shuoshuo.org/qinggan/38990.html
本文标签:

留言与评论(共有 0 条评论)
   
验证码:

文文说说 www.shuoshuo.org

Powered By 文文说说 sitemap