在谷歌年度开发者大会I/O的尾声,公司CEO桑达尔·皮查伊透露,会议期间谷歌提及了“AI”一词高达121次。这几乎成了两小时主题演讲的核心——将AI技术融入到全球超过二十亿用户所使用的每一个谷歌应用和服务中。
下面6个方面是这次发布会的主要内容:
文章目录
谷歌宣布了一个全新的AI模型,名为Gemini 1.5 Flash,该模型在速度和效率上进行了优化。Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之间,后者是谷歌最小的模型,可以在设备上本地运行。谷歌表示,开发Flash的原因是开发者们需要一个比Gemini Pro更轻便、成本更低的模型来构建AI驱动的应用和服务,同时保留一些Gemini Pro的长处,如拥有一百万代币的长时间窗口。今年晚些时候,谷歌计划将Gemini的上下文窗口扩大到两百万个代币,这将使其能够同时处理两小时的视频、22小时的音频、超过60,000行的代码或超过140万个单词。
谷歌展示了Project Astra,这是一个由AI驱动的AI代理的早期版本,由谷歌DeepMind的CEO德米斯·哈萨比斯描述为“在日常生活中可以提供帮助”。谷歌发布了一段视频,展示了一个Astra用户在谷歌伦敦办公室中走动,举起手机并将相机对准不同的物体——一个扬声器、白板上的一些代码、一个窗户——并与应用程序进行自然的对话。视频中最令人印象深刻的是,该应用程序准确地告诉用户她把眼镜放在哪里,尽管用户从未提及眼镜。
借助AI,谷歌正在将Google Photos的图像或视频搜索功能提升到一个新的水平。如果你是美国的Google One订阅者,你将能够向Google Photos提出复杂的问题,比如“显示我访问过的每个国家公园的最佳照片”,当该功能在未来几个月推出时。Google Photos将利用GPS信息以及自身的智能为你提供选项。此外,你还可以要求Google Photos生成带有标题的照片,方便在社交媒体上分享。
谷歌的新AI驱动的媒体创作引擎名为Veo和Imagen 3。Veo是谷歌对OpenAI的Sora的回应,能够生成“高质量”的1080p视频,持续时间超过一分钟,并且能理解电影概念,如缩时摄影。Imagen 3是一个文本到图像的生成器,谷歌声称它比前一版本Imagen 2在处理文本方面更出色。这使得Imagen 3成为公司最高质量的文本到图像模型,具有“惊人的细节水平”和“逼真的、生动的图像”,同时减少了人工痕迹,这似乎是对OpenAI的DALLE-3的挑战。
谷歌正在对Search的基本工作方式进行重大改变。今天宣布的大部分更新,如询问非常复杂的问题并使用搜索来计划饮食和假期,只有加入Search Labs——谷歌的实验平台——的用户才能尝试这些实验性特性。但谷歌正在测试的一个重要新功能是AI Overviews,一年后,它将开始向美国的数百万用户推出。谷歌搜索现在将以默认方式在结果上方展示AI生成的答案,公司表示,计划在今年年底之前将这一特性推广到全球超过十亿的用户。
谷歌正在将Gemini直接整合到Android系统中。当Android 15在今年晚些时候发布时,Gemini将能够感知你正在运行的应用、图片或视频,并允许你将其作为图层召回,提出具有上下文特定性的问题。这将对已经具备这一功能的Google Assistant产生何种影响?目前尚不明确。在今天的演讲中,谷歌并未提及此事。
除此之外,谷歌还宣布了许多其他更新。谷歌表示,将为AI生成的视频和文字添加数字水印,使Gemini在Gmail和Docs的侧边栏中可用,为工作区的虚拟AI助手提供动力,在通话中监听并检测你是否正在实时遭受诈骗,等等。