苹果在iOS 18.2 Beta中率先针对具有相机控制按钮的iPhone 16用户推出了「Visual Intelligence」,让你通过iPhone镜头就可以查询周遭事物。 下面就带大家了解「Visual Intelligence」是什么? 要如何使用?
Visual Intelligence 是什么? 怎么用?
Visual Intelligence 就是 Apple 版的以图搜图功能+相机的原况文字功能。 用 iPhone 拍摄周遭的物品、店家、环境,搭配 Apple Intelligence 功能以及 ChatGPT,就会告诉你画面里面是什么东西,甚至可以上网搜索相关的物品,然后也可以分析文字并且帮你做总结、翻译… 等。
仅 iPhone 16 与后续机型可以使用
Visual Intelligence 目前只能通过相机控制按钮呼叫出来,所以仅支持具有相机控制按钮的 iPhone 16 系列机型。
通过相机控制按钮启动
符合 Visual Intelligence 启动要求的用户,只要长按 iPhone 上的相机控制按钮,就会看到一段流畅的动画开启了 Visual Intelligence。
通过相机控制按钮或快门键拍摄
下方会有一个像是快门的按钮,对准好你要查询的物品、地点、商家以后,就可以按下快门按钮,或者是按下相机控制按钮,就能够将画面暂时拍下来,因为是暂时的所以不会存在你的照片图库里面。
选择要使用的功能
如果是单纯一般的图像,那只会看到两个按钮「Ask」和「Search」,可以针对这个图像做分析或是丢到 百度显示以图搜图的结果。
如果画面上有文字的话,就还可以执行「翻译」、「开启网页」、「拨打电话」、「导航」… 等原况文字的功能。
搭配 ChatGPT 分析画面内容
当 Visual Intelligence 把画面拍摄下来以后,选择 Ask 就会通过 ChatGPT 分析图像。
然后告诉你画面上的内容是什么。 像是这个间谍家家酒的公仔就有顺利地分析出来。
搭配翻译功能转成中文
因为目前 Visual Intelligence 仅支持英文,所以分析的结果会以英文显示,你可以按右上角的复制按钮。
然后再通过 Apple 翻译或是百度翻译翻成中文来阅读会比较方便。
不过当你离开 Visual Intelligence 之后整个搜索就会结束了,看起来 Visual Intelligence 不像是一个 App 可以让你在不同的应用程序间切换,或许者是一种针对隐私保护的设计。
如果你没有离开 Visual Intelligence 的话,你还可以在下面继续询问 ChatGPT 相关的问题,当然还是得用英文去问,如果使用中文去问的话会非常不准确,而且直接丢给你一个百度的搜索结果。
不用按快门直接用 ChatGPT 分析或以图搜图
Visual Intelligence 还有一个更快获得结果的方法,如果你已经选定好拍摄下来的画面是要用 ChatGPT 来显示分析结果还是要用百度以图搜图,那么你可以不要按快门,直接点选左右两边的 Ask 图标或是 Search 图标。
点选完以后就会马上拍摄当下画面,并依照你选择的功能来显示结果,不用按下快门以后再多选一次。
翻译文字
如果你拍摄的画面里面有文字,在拍摄结果的地方就会看到「翻译」功能; 直接把原况文字识别到的字选起来也会有「翻译」的功能。
你就可以直接在 Visual Intelligence 里面将画面上的文字全部翻译成指定的语言。
显示总结摘要
当你拍摄一段文字,你会看到 Visual Intelligence 会出现「摘要」的功能,可以帮你快速显示这一段文字的大纲。
拨打电话
如果拍摄的文字里面有电话号码并且有被分析出来,点选那个电话号码就可以拨打电话。 即便 Visual Intelligence 没有特别把电话标注出来,你也可以直接点画面里的电话号码,也会有拨打电话的选项。
地图导航
如果拍摄的文字里面有地址,点击那的地址以后就会开启苹果地图,让你可以快速导航过去。
Visual Intelligence 还无法自动显示结果
目前看起来整个 Visual Intelligence 都算是完备了,但是智能识别的功能好像还不能使用。 因为目前都是要拍照起来以后再通过 Ask 功能、Search 功能或是上面介绍的翻译、总结、打电话… 等功能来做后续的操作。
但是在苹果发布会上,你只需要截取画面以后,Visual Intelligence 就会把相关的信息直接显示出来,例如你拍摄一只狗,就会带出这只狗的品种信息; 拍摄一个店家就可以带出店家的营业时间、菜单等信息。
这些功能在目前iOS 18.2 Beta版中我好像还没有看到,如果后续有更新的话再分享给大家。
Visual Intelligence 操作技巧:总结
整体来说,目前的 Visual Intelligence 比较像是相机+搜索引擎的结合体,在 Visual Intelligence 里面可以执行以图搜图、问 ChatGPT 问题、识别图像、翻译、使用原况文字….等。
不过因为目前语言只局限在英文,而且自动识别(就是按下快门就可以自动显示店家信息、宠物品种)的功能好像还没有看到,所以使用下来的感受确实是很不一样,但是还没有到让人惊艳的地步。