AIGC视觉多模态算法开发商爱诗科技完成天使轮融资

研究表明,在人类获取信息的所有媒介之中,视觉承载了超过80%的信息量。远在语言成为人类沟通的媒介之前,人类就已经依赖视觉信息去认识世界了。
在人类采用语言来作为意义的载体之后,视觉和文化符号依然在表达之中起重要作用:在文化教育普及之前,无数人得以通过舞台的视觉呈现感受戏剧的艺术魅力;而即使在语言文字广泛应用的当下,也涌现了各类meme和表情符号,以一种不同的维度承载起网络亚文化的侧面,推进个体之间的无障碍信息交流。
能支持这种直观信息理解的重要原因在于,视觉相比于语言,承载了密集得多的信息流。人类早已在潜移默化地在这种高密度信息之中,习得了众多潜在规则,进而对于视觉信息产生了相比语言更高的要求。视觉生成既要符合客体上的限制、满足一致性的要求、还需要实现风格化的处理、保证语义的连贯性,是不亚于打造大语言模型的挑战。

由于面对着上述更多的技术挑战、更高的用户期待,视觉AI尚且还停留在技术突破的阶段。与LLM已经相对明确的发展路径并不相同,视觉AI生成依然面临着一些尚不明确的技术荆棘。如何在结合AI生成产品需求的角度上,从准确性、一致性、丰富度等多个维度出发,攻克视觉生成的科学创新难题,交上令人满意的答卷?
回顾UGC/PGC时代下的发展路径,我们认为:在AIGC时代,视觉内容也依然会是最主要的消费载体。
两个时代,最主要的视觉难题虽不尽相同,但系统性地解决视觉问题所需要的核心技术能力却一脉相承。以抖音为代表的短视频产品举例,其成功离不开一系列视觉技术能力:对于短视频特效精准稳定的大规模生成,对海量视觉数据的精确清洗和标注,对视频的低延迟抽帧和安全检查,以及对关键内容近乎完美的准确识别……以上所述的技术不仅支持了短视频成为UGC时代的核心媒介,且无疑将成为解决AIGC视觉生成难题的重要基石。
而这, 正是我们最大的优势。
我们对于AI视觉生成的信心,正来源于我们在上一时代全球顶尖的视觉技术能力。

我们的创始人王长虎博士在科研与业务的双重磨砺下,深耕计算机视觉与人工智能领域20年;带领字节跳动视觉技术团队在巨量规模的用户数据下,解决了多个视觉领域的世界级难题,并从0到1参与抖音与Tik Tok等国民级视觉产品的建设和发展。
我们的团队成员来自清华、北大、中科院等顶级学府,曾任职于字节、微软亚洲研究院、快手、腾讯的核心技术团队,拥有世界一流的计算机视觉算法攻坚能力和解决系统工程问题的经验。
我们具备经过复杂业务考验的数据高效挖掘能力、全球领先的多模态表征学习与对齐技术,以及完整的大规模训练系统搭建经验。
我们致力于通过——“融合内容理解与生成;融合文字、图片、视频等多模态”的双融合技术路径,搭建世界一流的AIGC视觉多模态大模型。
责任编辑: 椰子