小天才海外版 imoo 发布二合一硬件，具备实时翻译功能；Streamo：让大模型变成实时流式交互助手丨日报

2026-03-23 4 纸飞机账号购买

01 有话题的技术

1、小红书发布了 dots.mocr，rednote-hilab所发布的这个，有着3B参数，能支持图像转SVG。

rednote-hilab 在小红书发布了参数量为 3B的多模态 OCR 模型 dots.mocr，以及针对图像转 SVG 的优化版本。该模型在同级多语言文档解析任务里达到了 SOTA 水平，还支持把图表和 UI 布局直接转换成可用的 SVG 代码。

近日，RedNote-HiLab发布了3B参数多模态OCR模型dots.mocr，还发布了其SVG版本dots.mocr-svg，官方表示，前者在同级文档解析里达到了SOTA水平，具备定位能力，具备识别能力，还具备语义理解能力。

有评测表明情况，此模型于像 olmOCR - Bench 这类基准方面呈现出优异的表现状态，在特定的细分项里面所获得的分数是高于 Gemini 3 Pro 的。

得分分别为0.931以及0.905的后者，在UniSVG任务之上取得这样的分数，在Chartmimic任务之上也取得这样的分数，并且超越了Gemini 3 Pro句号。

官方给出提示，模型于复杂表格提取方面，以及 SVG 的鲁棒性之上，依旧有着局限存在，并且打算在今后进行更新，以此来解决这一问题。

Huggingface 链接：

https://huggingface.co/rednote-hilab/dots.mocr

Github 链接：

https://github.com/rednote-hilab/dots.mocr

（@橘鸦 Juya）

2、在LM Arena中，Qwen3.5-Max-Preview出现了，冲向了全球排名的前五位。

在今天凌晨时分，千问（Qwen）正式推出了旗舰模型预览版 Qwen3.5 - Max - Preview就，并且在全球大模型竞技场 LM Arena 上进行了公开的亮相，最终所获得的成绩是 1464 分。

因着这一成绩，阿里千问于LM Arena全球大模型公司的排行榜里，成功跻身至全球前五之列。并且，还占据了中国第一的位置。

在这次测评期间，Qwen3.5-Max-Preview的核心展现亮点是这样的：

(@APPSO)

3、Streamo：让大模型变成实时流式交互助手

近期，香港浸会大学联合腾讯优图实验室提出了名为Streamo的事物，其核心创新之处在于，把‘何时回答’转变为模型需要预测的token，而且借助端到端训练框架将离线视频模型直接转化成实时流视频助手，Streamo具备处理真实场景视频流的能力，它还支持实时的多指令交互，能实现实时解说、动作理解、事件定位、实时问答等各种各样的任务，从而让streaming video assistant真正迈向可用的阶段。

虽说视频大语言模型近些年来有了令人刮目相看的进展，可是，关键的阻碍之处在于，这些模型是依照完整视频片段的离线场景构建设计的，然而，真实世界的交互需求常常是那种“边看边说”的实时流式场景。

现有方法一般借助拆分决策模块去适配流式场景，先是有一个模块来判断「是不是应当响应」，接着再去调用离线模型生成内容。然而这种方案有着显著的不足，决策跟生成相互分离，致使模型特别难以在持续变动的输入里形成连贯且及时的响应。

Streamo的核心洞察是这样的，决策跟生成不应该被分开，而是要统一到同一个端到端的框架里，使得模型能够直接学会，什么时候应该说话，在那个时候又应该说什么。

用这种办法，Streamo把「是否做出回应」以及「生成怎样的内容」整合到同一个next-token prediction进程里。换句话讲，当模型对下一个token进行预测时，不光是在生成文字内容了，与此同时还在做响应时机的判定。如此一来，决策与生成共用同一语义空间，模型能够于持续变化的视频内容里同步构建时序线索、任务目标连同语言输出，进而更自然地去学习「何时该马上做出回应、何时该继续等待」。

与此同时，此项设计并非要额外引入单独的决策头或者外部控制装置，而是径直把三种状态token融入标准的自回归训练架构里。如此一来，既留存了与现有监督微调模式的兼容性，又让训练以及推理流程更为简洁高效，利于直接借助现有基础设施开展并行训练与部署。

Streamo-Instruct vs 现有数据

想达成那种实实在在的实时多模态助手，涵盖直播理解、智能驾驶提醒、安防巡检、运动教学等等方面，最难的常常并非是“答对”，而是要能够在恰当的时间节点做出恰当的输出。

Streamo解决了当前视频大模型的关键瓶颈，它提供了一个可复用的技术路线，这条技术路线能将静态感知模型转换为动态交互智能体，它还提供了一个统一时间标注的大规模流视频指令数据，推动流视频理解的发展。

GitHub 论文链接：

这不是一个句子呀，请你提供具体的句子以便我按照要求进行改写。

（@机器之心）

02 有亮点的产品

1、ElevenLabs推出Music Marketplace ，创作者能够发布借助其音乐模型创作出来的曲目，音乐人也能发布这样的曲目，并且创作者和音乐人都可以凭借发布此类曲目从中获取利益。

ElevenLabs，其旗下拥有 ElevenCreative 平台，宣称正式登场 Music Marketplace，也就是音乐市场，把 AI 音乐生成的创作流程跟直接收益建立关联，准许创作者凭借其音乐模型所生成的曲目去获取版税收入。

创作者于平台内完成提示词生成，以及后期精调（Refining）后，能够直接发布至音乐市场。发布出的音轨，每一次被下载，或者被其他项目重混（Remix），原作者便可获得相应报酬。此模式沿袭自已经支付超1100万美元收益的Voice Marketplace（语音市场），目的在于把同样的创收潜力引入到音乐领域。

营销人员，企业，内容创作者，Music Marketplace简化传统音乐授权流程了，用不着同步授权费，用不着逐次使用谈判，用不着清权延迟，消除法律合规等待期，能实时获取商用权。

( @ElevenLabs\@X)

2、小天才海外版 imoo 发布二合一硬件，把耳机藏进手表里

imoo在Kickstarter上开展了一项与众不相同的众筹，发布一款针对海外市场的可穿戴硬件新产品，即imoo Watch Buds，其售价为199美元，早鸟价是139美元。到目前为止，该产品已结束众筹。若进展顺利，imoo Watch Buds预计会在三月底完成生产，且于四月初开始发货。

和imoo以前专门给儿童以及青少年设计的全部产品不一样，这些产品比如说儿童电话手表，还有儿童耳机，这款新出的产品的目标受众不是儿童和青少年了，而是那些每天在通勤、会议以及健身之间能够毫无缝隙地进行转换的都市成年用户，好比跑步的人、上下班的人、旅行者、奉行极简主义的人等等。

耳机老是放置在距离你仅仅半步之遥的地方，然而恰恰是这并不长的距离，致使它们易于丢失、被人遗忘，又或者干扰你的日常生活。倘若科技无法让生活变得更为简单，那么它存在的意义到底是什么呢？

由此，一款名为imoo Watch Buds的产品便诞生了，就如同它的名字所表达的那样，它试图把手表以及耳机这两者融合为一体。

对于怎样确保合并起来的两个单独设备，也就是手表以及耳机，它们各自的功能都不会遭受影响这样一个技术方面的问题，imoo采取了与众不同的办法，并没有把耳机隐匿于手表的内部，而是让耳机围绕在表盘的四周，借助磁吸的方式与手表组合成为一体。如此一来，既保障了耳机的形状、舒适度以及音质，又使得表身维持纤薄轻巧的状态。耳机还能够直接经由手表进行充电，不需要单独的充电盒或者其他配件。

论imoo Watch Buds手表自身来看，它是一款功能周全的智能手表。它配备着简约的数字显示屏，健康监测功能包含心率监测，血氧测量，睡眠和压力分析，计步以及卡路里追踪等，这些都内置了光电容积脉搏波（PPG）传感器。所有的数据都会同步到imoo Buds App。

除具备健康监测功能以外，imoo Watch Buds能够实时对语音进行翻译以及转录，并且会把结果即刻传输到耳机以及App，达成多语言面对面的沟通。

可以这么讲，imoo Watch Buds 的现身，是源于 imoo 以往的两大关键产品线，也就是 imoo Watch Phone（手表）以及 imoo Openbuds（耳机），它们各自所存在的专业方面的积累。

现在，当前存在的这两条，原本处于平行状态的探索路径，最终在imoo Watch Buds之上交汇，合并成为一个整体，变为一条路径。

（@多知）

3、绿色推出首个具备身体智能陪伴的，名为Amoo的机器人，它懂得为他人提供陪伴，能够产生同情心。

近段时间，上海青心意创科技有限公司也就是Cyan，历经了长达十个月的研发历程之后，推出了它的首款具身智能陪伴机器人，那就是Amoo。

青心意创认为，陪伴的内核是「有回应的情感联结」。

所以，团队给 Amoo 构建了全方位的感知能力以及多模态协同的情绪表达系统，使得它能够明白用户意思，领会用户意图，精确地来回应用户。

Amoo在感知能力方面，就好像具有「眼睛、耳朵以及皮肤」，可以敏锐地察觉到各类生活场景以及情绪变化。它有着超宽广的视觉以及精准的声音识别能力，能够识别家人的表情、动作还有话语，并且给出回应、表达多种情绪。其全身布满了触觉感应设计，当它被轻轻抚摸的时候，会给出亲昵且生动的「舒服」表情。

依托自行研究制造的 Agentic OS 以及情绪步态大模型，Amoo 能够依据当下实时感知获取到的信息，独立自主地作出十分契合眼前场景情形的自然反应，眼神、语言、肢体相互之间的协同反应时间是可以小于 30 毫秒的。借助基于情绪引擎的原子化动作库，从而确保了表情输出在物理层面和语义层面达到高度匹配，使得 Amoo 能够做出丰富多样且细腻逼真的拟人动作以及复合情绪，情感表达更为精准、更为真实。

Amoo之所以能够成为懂得陪伴、会进行共情且能自主行事的这般“家人”，这还得益于它整体协同能力的提升，当前市场上那些可实现规模化量产的具身智能机器人，常常难以凭借感知、算法、运控这些方面的单点突破来达到整体能力的跃升，进而促成这样的转变，从而实现能力的提升，达成这样的效果。

青心意创依据多模态感知模型与 Agentic OS，把智能驾驶领域的先进架构迁往机器人，塑造出「大小脑」协同系统，使得 Amoo 一并拥有类似生物的「直觉反应」及「深度思考」能力，攻克多模态协同输出跟物理性闭环交互的难题，达成「身心合一」的情绪表现力。

（@多知）

03 有态度的观点

1、库克称，在人工智能掀起的浪潮之下，iPhone不会消失，它将会持续不断成为数字生活当中的中心。

日前，在纽约中央车站，苹果CEO蒂姆·库克，即Tim Cook，接受了博主Nikias Molina的专访。

在说到iPhone的以后发展境况时，库克讲道：“iPhone不会不见，它会在相当长的一段时期之中持续存在。我们还有好多事情能够借助iPhone来达成，我觉得它会持续变成人们数字生活的核心所在。”。

当被问到iPhone之后的“下一个大事件”时，库克没把方向指向某一款具体的产品，而是把苹果的未来归结为“人与文化”。他觉得，硬件、软件跟服务的交汇之处才是苹果魔力的源头，还表示“生态系统是一切的核心” ，真是这样呢！

他与此同时表达称，能够明确这一点的是，以后的创新，将会是那种极其酷、极具创意的样子。

在AI浪潮这种情况下，要怎样去保持技术的人文温度呢，库克给出的回答是，始终把用户当作核心。要是你一直都专注于让他人的生活变得丰富起来，那么你所创造出来的那些东西，对于整个世界而言算是质量不错的。

在明年的时候，iPhone将会迎来问世20周年，这是一个特定的时间节点。今年第一季度，iPhone的营收方面，达到了852亿美元，这个营收数额创下了历史新高。库克针对这一季度的需求，把它形容为「令人震惊」，还声称「iPhone实现了有史以来最佳季度表现，需求呈现出空前的状态，每个地区市场都创下了历史记录」。

( @APPSO)

阅读更加多一些的 Voice Agent 有关的学习笔记，去知晓那些最为懂得 AI 语音的头脑究竟都在思索些什么。

写在最后：

越多的小伙伴被我们欢迎着去参与，「RTE 开发者日报」内容的共创，感兴趣的友人要是通过开发者社区或者公众号留言联系，暗号「共创」记得要报。

对于任何反馈，不管是内容方面，还是形式方面，我们都怀着不胜感激之情，并且会有小惊喜来回馈，比如你期望从日报里看到什么样的内容，自己推荐的信源、项目、话题、活动之类的，又或者列举几个你喜欢看的、平常经常看的内容渠道，内容排版或者呈现形式上有哪些能够改进的地方等等。

作者提示: 个人观点，仅供参考

小天才海外版 imoo 发布二合一硬件，具备实时翻译功能；Streamo：让大模型变成实时流式交互助手丨日报