火狐足球病理科信息管理系统火狐直播医院信息平台火狐直播医技统一预约整体解决方案火狐直播内镜影像管理系统火狐直播放射影像管理系统火狐直播专业超声检查系统火狐直播医学影像学网络教学系统火狐直播医疗智能决策系统火狐直播数字网络视频会诊系统产品系列解决方案智能影像云电子胶片医技统一预约新冠AI公司动态行业新闻公司简介企业文化企业荣誉发展历程联系方式加入我们客户中心

火狐直播:给一个词就能仿照你的笔迹Facebook这个AI强壮到不敢开源代码

发表时间:2024-05-19 04:52:41 来源:火狐直播网页作者:火狐足球/span>

  Facebook 近来发布了一项新的图画 AI——TextStyleBrush,该技能能够仿制和再现图画中的文本风格。凭借该技能,你只需求输入一个词作为「规范」,AI 就能全篇仿照你的书写风格,一键履行,作用可谓冷艳。此外,你还能够用它替换不同场景中的文字(比方海报、垃圾桶、路标等)。下图中左面为原始场景图画,单词显现在蓝色矩形中;右侧为文本替换后的图画。从图中能够看出,各种风格的字体 AI 简直都能 hold 住。下图中每个图画对在左面显现输入源款式,在右边显现新内容(字符串),左右两头字体看起来风格完全相同。与源图画比较,输出的图画在外观上好像都有些含糊,但咱们能够看到,在大多数情况下,该技能好像作业得很好。与其他笔迹仿照 AI 比较,TextStyleBrush 功用更强壮,能够从更纤细的视点剖析文字款式,然后做到在各种视点和布景下进行笔迹仿照。

  这款强壮的仿照神器正是 Facebook AI 推出的「TextStyleBrush」,只需输入一个单词,就能完美复现笔迹。这项技能的原理类似于文字处理 APP 中的款式笔刷东西,能够将文字和风格分隔。

  只需求一个单词,就能仿制相片中的文字风格。运用该 AI 模型,你能够修改和替换图画中的文本。

  与大多数 AI 体系不同的是,TextStyleBrush 是首个自监督的 AI 模型,运用单个示例词一次性替换手写和图画中的文本。

  将来它会在个性化信息和字幕等范畴开释新的潜力,比方在增强实际 (AR) 中完结传神的言语翻译。

  经过发布这项研讨所具有的才能、办法和成果,研讨者期望推进对话和研讨,以发现这类技能的潜在运用,如深休假文本进犯——这是人工智能范畴的一大应战。

  因为 TextStyleBrush 也或许被用来制造误导性的图画,所以 Facebook 的 CTO 在个人交际网站表明,他们只发布了论文和数据集,但没有揭露代码。并表明正如咱们对 deepfakes 的办法相同,咱们以为同享研讨和数据集将有助于构建检测体系并提早防备进犯。

  用 AI 生成图画一直在以惊人的速度开展,这种生成技能能够重现前史场景,或许将相片变成梵高级绘画风格。现在,Facebook AI 现已建立了一个能够替换场景和手写文本风格的 AI,只需求一个单词作为输入。

  尽管大多数 AI 体系都能够完结定义明确的、专门的使命,但构建一个满足灵敏的 AI 体系,以了解实际场景中文本和手写体的纤细差别,具有很大的应战。这意味着需求了解很多的文本款式,不只包含不同的字体和书写风格,并且也包含不同的转化,如旋转、曲折的文字以及图画噪声等问题。

  Facebook AI 提出了 TSB(TextStyleBrush)架构。该架构以自监督的办法进行练习,没有运用方针风格监督,只运用了原始风格图画。该结构能够自动地寻觅图片实在风格。在练习时,它假定每个词框有实在值(出现在框中的文本);推理时,它选用单一源款式图画和新内容(字符串),并生成带有方针内容的源款式的新图画。

  首要,StyleGAN2 是一个无条件模型,这意味着它经过对一个随机的潜在向量进行采样来生成图画。但 TextStyleBrush 必需要生成指定文本的图画。

  其次,TextStyleBrush 生成的文本图画风格不受操控。文本风格触及大局信息(例如调色板和空间改换),以及精密的份额信息组合(例如单个笔迹的纤细改变。

  研讨者经过内容和风格表征来调理生成器以处理上述约束。经过提取特定于层的风格信息并将其注入到生成器的每一层来处理文本风格的多标准特性。除了以期望的风格生成方针图画外,生成器还生成表明远景像素 (文本区域) 的软蒙版图画。经过这种办法,生成器能够操控文本的低分辨率和高分辨率细节,以匹配所需的输入风格。

  该研讨还引入了一种新的自监督练习原则,该原则运用字体(typeface)分类器、文本辨认器和对立式鉴别器来保存源风格和方针内容。首要,研讨者经过运用预练习的字体分类网络来评价生成器捕获输入文本风格的才能。别的,他们运用预练习文本辨认网络来评价生成图画的内容,以反映生成器捕获方针内容的作用。总而言之,这种办法能够对练习进行有用的自监督。

  表 2 供给了评价不同丢失函数、风格特征扩展以及练习 TSB 时 mask 的作用融化试验成果。试验成果显现,TextStyleBrush 生成的图片在 MSE(组成差错)上大幅下降,PSNR(峰值信噪比)、SSIM(结构相似性)均获得了进步。

  表 3 是在三种数据集图画上测得的文本辨认精确率。试验成果显现,TSB 的辨认作用最好,在 IC13 上的辨认精确率为 97.2%,IC15 上的辨认精确率为 97.6%,TextVQA 上的辨认精确率为 95.0%。

  表 4 供给了生成的手写文本的定量比较,将 TSB 办法与 Davis 等人 [14] 专门为生成手写文本而规划的 SotA 办法进行了比较。FID 分数越低,生成质量越好。明显,TSB 办法优于曾经的作业。

  TextStyleBrush 证明了 AI 在文字上面能够比过去愈加灵敏、精确地辨认,但这项技能依然存在许多问题,如无法仿照金属表面的字符或五颜六色字符等, Facebook 期望这项研讨能持续扩展,打破翻译、自主表达和 deepfake 研讨之间的妨碍等。

客服服务热线
4008-360-666(周一至周日:9:00-22:00)
公司地址:深圳市南山区学苑大道1001号南山智园A3栋6楼 邮政编码:518000 客服邮箱:market@lanwon.com