近日,全球化 AI 企业 Clipto.AI(以下简称 Clipto)在 Product Hunt 正式发布其新一代 Mac 端产品,获得当日全球榜单第一名(Product of the Day)。Product Hunt 被誉为全球创新产品的重要风向标,Notion、Figma、Airtable、Loom 等知名产品均曾通过这一平台获得早期用户与资本市场的关注。
社区150多条高赞评论集中在两个方向:其一,产品让电脑拥有了长期记忆,能够理解、组织并重新调用沉淀在设备中的内容;其二,完全本地化的多模态文件处理,重新定义了工作方式。这两个方向,恰好对应了 Clipto 过去两年押注的两条核心路线——AI记忆层与端侧多模态。

(Product Hunt榜首截图)
构建 AI 时代缺失的“记忆层”
全球数十亿知识工作者的本地设备中,堆积着 TB 级的视频素材、会议录音、播客访谈和项目文档。从海量素材中翻找一段可能只有几秒的画面,似乎成了AI时代知识工作者不得不面对的症结。
例如“找到客户会议中讨论定价策略的部分”、“找到沙漠中车辆高速穿越的航拍镜头”,依靠以往人工翻阅文件和拖动时间轴,动辄需要数小时。
这背后暴露的并不仅是搜索问题。当视频、会议、播客、截图和文档等不断堆积在个人设备中,人们缺少的并非存储空间,而是一套能够持续理解、组织和调用这些内容的记忆系统。
公司创始人兼 CEO 康洪文(Henry Kang)将 Clipto 的定位概括为连接个人数据与智能体生态的记忆层。“过去十年,AI 一直在构建世界模型,但缺少用户模型。每个人的数据都散落在自己设备里,尚未转化为 AI 可以持续理解和调用的个人上下文。”他表示,“如果没有长期记忆,再聪明的 Agent 也无法真正理解用户。搜索只是开始,Clipto的最终目标是打造 AI 时代缺失的记忆层。”
Clipto 的解法是:将本地视频、音频、图片和文档等多模态数据导入后,利用本地的 AI 算力和多模态大模型对文件进行感知理解、结构化和向量化,并构建认知图谱、时空对齐的记忆系统。在使用Clipto的本地记忆系统时,用户仅需用自然语言描述需求,端侧大模型对用户描述的意图、上下文进行全面的理解,通过本地搜索Agent在数秒内精准定位目标片段——人物、场景、对白、事件及对应时间点。
不仅如此,Clipto打通了底层大模型和上层Agent之间所缺失的记忆层,用户可以在TB级私有数据上进行各种云端通用大模型上常见的操作。例如,通过类似ChatGPT一样的对话方式,让Clipto回答任何关于记忆系统里数据的问题,基于已有内容生成新的摘要、总结等。而这一切的操作都完全在本地完成,不仅节省用户云端Token成本,而且对于一些刚需场景,例如敏感数据,移动办公等,这甚至是必须的门槛。
在Product Hunt社区,一条评价精确概括了为什么Clipto能够获得用户喜爱而成功登顶:“完全本地化不是一个附加功能,而是重新定义了一个完整的产品。”

(Living Memory Graph)
提前两年布局端侧 多模态AI,让本地算力支撑记忆系统
要构建这样的AI记忆层,端侧算力和端侧多模态大模型不可或缺。
2026 年 3 月,Apple 发布 M5 Max 芯片,配备 16 核神经网络引擎,统一内存带宽 614GB/s,GPU AI 峰值较前代机型提升逾 4 倍。6 月 1 日 COMPUTEX 2026,英伟达发布 RTX Spark 超级芯片,将消费级 PC 的 AI 算力推至 1 PetaFLOP,可在本地运行 1200 亿参数大模型;次日,微软即发布集成该芯片的 Surface AI PC。
硬件跃升正在改写一个预设:多模态 AI 不再需要依赖云端,一台笔记本本身就是足够强的算力底座。而 Clipto 早在两年前就开始布局这一方向,在自研多模态大模型、芯片级优化、本地推理加速、数据飞轮构建和端侧 AI 算力基础设施等方面积累了先发优势。
过去两年,Clipto 从算力层到智能体层构建了完整的端侧技术栈,将超过 10 个自研端侧模型——涵盖大语言模型、语音语言模型、视觉语言模型及多模态嵌入模型——整合为适合端侧算力约束的统一架构,通过减少跨模态冗余、并行解码和动态调度实现模型压缩与协同加速,同时,针对 Apple M 系列及 NVIDIA RTX 等异构计算架构完成了数百项优化。
而这些优化最终指向同一个目标——让本地设备不仅能够处理多模态数据,更能持续理解、组织和记忆这些数据,并通过大模型的能力将记忆变为可复用的知识和智能。当端侧算力足够强大,记忆层便不再只是构想,而是每个知识工作者触手可及的现实。在一台Apple MacBook Pro M5笔记本电脑上,Clipto 可在24 小时内完成 2TB 视频素材的本地处理,而过程中本地原生模型输出近亿 Token——如果在云端运行,按照当前主流云端模型定价,这些Token价值近 400 美元。

(用户使用Clipto制作视频电脑桌面截屏)
此次Clipto在Product Hunt的登榜,标志着公司端侧多模态大模型不仅在技术上成熟了,而且在产品和商业化上也已经时机成熟。Clipto 全系列产品已进入全球 150 多个国家和地区,注册用户超千万,ARR 突破 1500 万美元并实现盈利。除本次发布的 Mac 端多模态搜索新产品外,公司还拥有覆盖内容创作、媒体处理与知识管理场景的多款 AI 产品,服务于影视创作、办公、法律、教育及科研等专业用户。
公司已获红杉中国、高瓴创投、EnvisionX Capital、Palm Drive Capital 及投资人童士豪、Lu Zhang 等机构注资,2025 年连续完成三轮 Pre-A 轮融资,投后估值超 2.5 亿美元。康洪文毕业于卡内基梅隆大学机器人研究所,博士期间研究方向为机器记忆系统——让机器人通过持续积累视觉经验来理解世界。2017 年,他创办文字生成视频平台“智影”,2020 年成功出售给腾讯后,曾担任腾讯 AIGC 负责人。

关于 Product Hunt
Product Hunt 是全球最具影响力的新产品发现与发布平台之一,被广泛视为科技行业的重要风向标。平台汇聚全球创业者、开发者、投资人和科技爱好者,是众多创新产品获得早期用户验证和全球曝光的重要舞台。
关于 Clipto
Clipto 成立于 2023 年,总部位于美国加州帕洛阿尔托,是一家专注于端侧多模态 AI 的科技公司。公司致力于构建面向 Personal AI 的 Memory Layer,让每个人设备中的视频、音频、文档和知识,逐步形成可被 AI 理解和调用的长期记忆系统。让每个人的设备,从数据存储工具,进化为真正拥有长期记忆与持续智能的 Personal AI System。
A5创业网 版权所有