字节正在与多家手机厂商洽谈合作。文字|何前明“比较一下京东、美团外卖、淘宝上哪个肯德基辣子鸡汉堡最便宜,选择价格最低的,下单后到三里屯SOHO A座地址收货。下单时请备注“放在前面”。下单后,将订单截图通过微信发送给小明,告知我们外卖完成。“整个过程中,只有付款阶段需要人工干预;其他所有操作均由AI在后台自动完成。 12月1日,字节推出豆宝手机助手预览版。这是为手机厂商提供的系统级服务。大豆袋模型深度集成到操作系统中,用户只需动动嘴(或手指)即可命令手机执行需要在屏幕上点击数十下的繁琐操作。我们很快y购买了一台搭载了豆宝和中兴通讯开发的豆宝手机助手的手机,并选择了数十个日常场景来测试其功能。作为预览版,它仍然存在一些缺陷,但它提供了与市场上量产手机完全不同的交互体验,并且相对顺利地实现了许多手机制造商在发布会上解释过但难以实现的想法。豆宝手机助手的主要研发团队是字节海洋,负责AI硬件。我在 Byte 的人工智能产品部门 Flow 工作。其核心成员由Byte多年来收购的锤子手机、PICO虚拟现实耳机、Ola Dance智能手机等各类硬件产品团队以及近年来加入Byte的硬件和手机专家组成。这款与中兴通讯合作的豆宝手机可在豆宝手机助手官网购买并已上架中兴商城,售价3499元。事实证明,这款手机只是豆宝手机助手的一次“测试”。字节正在与多家手机厂商洽谈合作。跨平台比价、订外卖、在小红书上搜索攻略、在手机上像人一样与豆宝互动。移动助手最大的进步在于它是一个(智能)代理。它不仅提供信息,还跨应用程序执行复杂的操作。具有系统级操作权限,能够识别手机屏幕上的用户界面元素。豆宝的大模型能力让您能够了解用户需求,并模拟点击、滑动、输入等动作,像人一样与手机上的应用程序进行交互。外卖大战中,淘宝、美团、京东投入数千亿元补贴。做法不一样,同一家店,同样的食物,在不同的地方价格不同。不同的平台。如果你想充分利用你的食物,你必须打开三个应用程序,搜索它们,并在每次点外卖时一一比较价格。你可以把这个任务委托给豆宝手机助手,说:“帮我看看京东快送、美团外卖、淘宝闪购哪家肯德基指包原味鸡更便宜。”后台自动打开美团外卖,搜索肯德基,搜索零售商,搜索指吸原味鸡,找到后记录价格信息。然后切换到京东,点击即时配送页面,搜索“肯德基原味炸鸡”,直接在搜索结果页面收集定价信息。您最终进入淘宝并点击闪购页面来搜索产品并获取信息。在此过程中,你还可以用手机查看TikTok、回复微信等。最后,豆宝手机助手给出了一份价格描述性清单肯德基原汁原味炸鸡在各平台上的销售情况,请提交你的论点。原味舔指鸡2只装,京东即时发货价格最便宜:14元。当你找到最便宜的外卖平台后,你可以让豆宝的手机助手帮你点餐。当需要进行最后付款时,您可以手动进行。如果你信任的话,你甚至可以让豆宝手机助手同时完成比价、记笔记、下单等工作。同样,你可以提出“去小红书查找更多北京到大同的旅游攻略,根据内容安排周五晚上出去,周日晚上回来”,并发送给你的微信好友,征求他们的意见。搜索从北京到大同的周末旅游攻略,就像刷小红树选择热门帖子一样。首先向左或向右滑动可查看照片,然后向上滑动可查看文字信息。然后,把你在小红收集到的信息整理一下制定一个大概的计划,然后打开微信发送给你指定的朋友。或者让豆宝按计划执行任务。 “七点,查看微博热门搜索,截图保存到笔记中。”一旦时间过去,微博将在后台打开,搜索活跃的微博搜索,它会截图,打开你的手机笔记,然后上传到那里。同样,你也可以要求滴滴每天定期去滴滴,领取优惠券。豆宝目前的手机助手并不总能完美地执行任务。但我们发现,豆宝手机助手有一个比较强大的“纠错机制”,可以让它执行任务。例如,订外卖并让朋友给你发送订单截图。在此任务中,您在订购外卖后陷入了弹出窗口。起初我尝试关闭弹出窗口,但最终进入另一个页面并在退出时触发另一个弹出窗口。直接报告错误或鼓励交付都行不通ork,但是经过50秒的反复尝试,终于找到了订单显示页面。可以随时激活按钮和专用语音,以从屏幕上提取信息并回答问题。该设备由豆宝移动助手提供支持,在飞机左侧配备了独立的专用物理按钮。无论您是在浏览抖音、回复微信,还是手机处于锁定状态,按下此按钮都会以“叠加”的形式显示豆宝的手机助手。这是一个半屏卡或浮动气泡,不会中断当前的应用程序进程。豆宝手机助手具有“屏幕识别”功能。当你和朋友微信聊天时,收到朋友发来的一条消息:“我真的很沮丧,因为这周末又要加班了。”如果你不知道如何回应,可以请豆宝来安慰你的朋友。当你按下侧边按钮时,豆宝会自动读取当前的聊天上下文历史记录并生成相应的自动响应内容。无需复制和粘贴。点击确认后将直接发送给您。它不仅可以提供言语上的安慰,还可以帮助您的朋友处理工作。例如,朋友发送了一条语音消息并将其与照片结合在一起。只需按一下按钮,您就可以让豆宝手机助手查看您的好友在说什么,并帮助您解决问题。将音频转换为文本并提取请求:“我朋友的老板要求我将照片中鞋子的颜色更改为蓝色。”然后该操作将自动执行。首先,尝试使用微信内置的图像编辑功能更改颜色。如果不行,保存照片,打开豆宝app,发送照片并请求改色,最后保存修改后的照片并通过微信发送给你的朋友。物理按钮还可以让您快速召唤不同格式的坐垫凳。双击启动豆宝语音通话功能nction,您可以在这里讲有趣的笑话并聊天。或坐浴盆激活呼叫功能,帮助您查看您面前的植物以及是否需要浇水。在设置中,您可以定义“两次单击”来启动豆袋相机,为凌乱的工作站拍照,并提出清理建议。分析照片中的内容并制定计划。当你浏览手机查看有价值的信息时,可以同时按下这个物理按键和音量加键进行保存,以供豆宝处理任务时参考。这是豆宝手机助手全局记忆功能的一部分。除了手动记忆之外,您还可以让豆宝在特定应用中访问您喜欢的内容,并自动记住您的设置,以便稍后为您提供个性化回复。例如,您可以记住经常使用的地址,这样您在订购外卖时就不会频繁地被要求确认您的地址。当然,你也可以用你的声音召唤豆宝手机助手即可完成以上所有任务。在某些场景下,语音对话更为方便。例如,如果您正在开车,一位朋友向您发送消息询问“您在哪里?”你可以给豆宝回复:“由于交通拥堵,我们会迟到10分钟。”请他稍等一下。微信会自动打开,您所说的内容会转换为文字并发送给您的朋友。功能仍然需要改进,但新的可能性正在出现。豆宝手机助手所展示的跨应用操作(代理)能力,常见于各大手机厂商的PPT会议中。不过,在量产手机中,能够实现并执行如此复杂环节的产品还很少见。最典型的例子就是苹果公司。我们在2024年6月全面引入了Apple Intelligence系统级大规模模型AI能力,但目前还没有完全落地。大型建模技术gy持续快速发展,资源、算法、数据的壁垒越来越大。单纯依靠手机厂商,组建团队和内部研究越来越困难。移动行业开始采用与强大的第三方模型提供商的新合作模式。 11月初,市场传出消息称,苹果计划每年斥资10亿美元收购谷歌的Gemini模型服务,为其Siri助手提供支持。此前,三星等手机企业也选择与Gemini深度合作。豆宝手机助手与中兴通讯等厂商的合作也体现了这种新模式。模型公司将提供性能优越的模型,手机厂商将其提供给运营商,共同为用户提供交互更便捷、功能更强大的AI手机体验。客观地讲,豆宝的手机助手还有进步的空间。例如我们开找了几个外卖平台对比肯德基原味炸鸡的价格,总共耗时1分56秒,比手动执行慢了近一分钟。毕竟,执行的每个步骤都需要首先了解屏幕上的信息。这依靠从屏幕读取信息并模拟人与手机交互的逻辑来工作,目前无法合理解决长尾需求。例如,浏览抖音时,我想等到每个视频播放完毕后,才能向上滑动观看下一个视频。向上滑动动作效果很好,但我无法判断视频何时播放完毕。它解决的问题范围也受到底层大规模模型能力的限制。例如,如果你在手机上下棋或斗地主,你就不能用它来运筹帷幄。实际水平还不如初学者。当被问到比较三个外卖平台上肯德基的价格时,如果不特别说明的话例如“淘宝闪购”,他们会在淘宝上搜索“肯德基原味鸡”,最终将产品的价格呈现给经销商。底层模型功能的不断迭代可以解决部分问题。 Byte 还提供服务。我们采用第三方开发者将服务和应用程序与豆宝手机助手集成。这使得豆宝手机助手能够获得应用层面的低级权限,解决大部分遗留问题。这应该是一个艰难的过程。说服应用开发商开放权利一般都很难,但说服大型互联网公司就更难了。一种新的可能性诞生了。当您使用手机处理跨应用程序的复杂任务时,您可以开始逐步执行操作,而无需查看屏幕。就像清洁机器人一样,它们不可能比其他人清洁得更好或更快,但希望它们能够解放人们的时间。标题e 图片来源:后来
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。