本周回顾:2024年初是AI领域初足够震撼的一周

这是一篇之前被遗漏的报道:本周,Nvidia的市值超越了亚马逊和谷歌的母公司Alphabet,跃升为世界第三高价值公司,市值达到惊人的1.83万亿美元。有一个趣事是:Nvidia最近一次市值超过亚马逊还要追溯到2002年。🤯 AI的崛起是多么震撼人心啊!

 

现在,让我们来看看一些重头戏。

 

 

OpenAI彻底改变了视频制作领域

 

就在不到一年前,基于AI的文本生成视频技术还异常糟糕(还记得那个威尔·史密斯视频吗?)。但就在昨天,OpenAI发布了其首个视频生成模型Sora,仅仅一天时间就颠覆了公众对AI视频的认知。

简单来说:Sora是一款能根据文本提示制作长达60秒视频的AI模型,它是在OpenAI之前的DALL-E和GPT模型研究基础上开发的扩散模型。

特别之处在哪里?Sora能创造出极度逼真的高质量场景,视频长度是现有视频生成器的十倍还要多。它能够精准考虑到各种细节,并且了解这些细节在真实世界中的存在方式。

但还有更多:它还能生成图片(Midjourney要小心了),根据图片生成视频,用文本提示编辑视频,合并两个视频,甚至创造无限循环。

有何不足之处?真正能使用的时候还需等待。OpenAI发布了这一模型,虽说是为了“研究目的”(或者说是为了营造热度),但仍需等待一个安全评估团队完成风险评估工作。

OpenAI也承认模型存在不足:Sora在捕捉空间细节与物理规律方面有时会出现问题。有时它会产生完全不合逻辑的结果,例如生成一个在跑步机上倒着跑的慢跑者的视频。

尝试一下:虽然我们现在还没办法直接体验Sora,但你可以在OpenAI的研究论文中体验视频生成模拟器。或者,你可以加入那些在X平台上不断向Sam Altman发送提示请求的人群,尝试把玩这项技术(这里有个人的一个最爱的例子)。

从细节到整体:OpenAI在AI视频方面的突破简直令人瞠目,仅仅一年的时间就取得了如此进步,谁能想象到2025年视频生成技术将达到何种高度?

 

 

谷歌推出升级版Gemini 1.5

 

Gemini 1.5 Pro演示了通过分析402页的笔录进行推理

 

谷歌推出了更为强大的Gemini Ultra一周之后,公司随即推出了设定新标准的多模型Gemini 1.5。

它是如何工作的呢?Gemini 1.5之所以如此高效,归功于它采用的专家混合架构:针对每次查询,它只激活模型的特定部分而不是整个模型。

它为何如此重要呢?Gemini 1.5能够同时处理大量的信息——确切的说,它有一个高达100万token的上下文窗口。这意味着它能够处理750,000个词的输入,11小时的音频,1小时的视频,以及数以万计的代码行。

实践中的表现:Gemini 1.5已经被证明可以理解并推理阿波罗11号任务到月球的402页记录,并能准确分析44分钟无声电影的众多情节和事件,还能修改并解释高达100,000行的代码。

免责声明:目前它还没有对公众开放,但谷歌很快就会引入带有128,000 token标准上下文窗口的1.5 Pro,并最终扩展到100万token的处理能力。

 

 

ChatGPT终于可以记忆了

是否有过这样的体验:与ChatGPT聊天时,似乎总是陷入一种“等等,你是谁?”的无尽循环。现在,OpenAI终于给出了解决方案:ChatGPT拥有了记忆功能。

OpenAI的创新:新增的记忆功能(目前仍在测试阶段)让ChatGPT能够存储并回忆之前聊天中共享的信息,你再也不需要在每次对话中都重新开始。

如何运作:你可以明确要求ChatGPT记住某项细节,或者让它自动捕捉并记忆信息。例如:

你告诉ChatGPT关于你的无麦面包店,当你询问布朗尼食谱时,它将只为你推荐无麦食谱。

你告诉ChatGPT你希望会议纪要以项目符号列点和加粗标题形式出现,它会将这种格式应用于未来所有的会议概要。

隐私问题怎么办?OpenAI提供了一系列选项,让用户掌控记忆的存储:

用户可以查看ChatGPT所存储的记忆内容,并选择性删除部分信息。

使用隐身模式,用户可以在不依赖之前记忆的情况下发起查询。

从细节到整体:ChatGPT的新记忆功能减少了反复输入同一内容的麻烦,节约了用户的时间和避免了挫败感。然而,这项新功能的意义远不止方便——它是人工智能领域迈向人性化交互的一大跃进。

 

 

通过ElevenLabs实现声音变现

ElevenLabs刚刚推出了声音演员支付计划,这是一个全新的机会,任何人都可以通过AI赚钱。

详细介绍:声音演员支付计划允许声音专业人士(实际上任何人)生成并分享自己声音的数字克隆版本。

用户只需上传30分钟声音样本并提供描述性细节(例如口音和性别)。

一旦上传到ElevenLab的声音库中,你的声音就可以被世界各地用于配音和旁白项目。

为了防止滥用,ElevenLabs的管理员会跟踪使用你声音的项目并标记任何不适当的使用。您还可以启用自动筛选器以获得额外的保护。

从微观到宏观:人们对于AI夺走创意工作有很多恐惧。但ElevenLabs是AI潜力呈现新的、金融上有利可图的机会给创意人和创造者的一个例子。

 

  • Meta介绍了V-JEPA,这是一种通过视频帮助训练AI模型了解真实世界的方法。
  • Sam Altman正在寻找7万亿美元(是的,带着“t”)用于一个新的AI芯片项目。
  • 一位巴基斯坦政治候选人使用AI来管理他的竞选活动——从监狱里。
  • Nvidia推出了一款在您的PC上本地运行的个性化聊天机器人。
  • 苹果刚刚推出了一个名为Keyframer的新图像动画工具。
  • AI在今年的超级碗中有了它的主流时刻
  • 亚马逊研究人员开发了迄今为止最大的文本到语音模型——并取得了有希望的结果。
  • 微软概述了2024年值得关注的三大AI趋势。
© 版权声明

相关文章