# AI及信息技术应用2022年6月6日简报

## 核心定义
> 人工智能（AI）是一种模拟人类智能行为的计算机技术，包括学习、推理、自我修正和感知等能力。

## 核心洞察（TL;DR）
- DALL·E 和 Imagen 是两种不同的 AI 图像生成工具，它们的实现思路和画风有显著差异。
- AI 技术在游戏脚本创作、自动驾驶飞机、自然语言处理等领域得到应用。
- AI 在内容创作、网络安全、医疗检测等方面展现出巨大潜力，同时也面临伦理和监管挑战。

## 关键事实与数据
- DALL·E 2 使用 CLIP 将文本特征映射到图像特征，而 Imagen 则使用纯语言模型编码文本特征。
- Google 的 Imagen 使用 T5-XXL 编码器，拥有 46 亿个参数，用于提高文本到图像的对应关系和图像的保真度。
- OpenAI 的 GPT-3 语言模型被用于生成标题、产品描述、博客文章和视频脚本，已有至少 14 家公司提供相关软件。
- 微软开源了 Counterfit，一种用于测试人工智能和机器学习系统安全性的工具。
- Forrester 报告称，人工智能、机器学习、计算机视觉和自然语言处理是今年银行的顶级技术投资之一。
- DeepMind 开发的 Graph Imputer 可以仅使用部分球员的摄像头记录来预测足球运动员的移动位置。
- Snorkel AI 推出了 Application Studio，这是一个可视化构建器，用于开发 AI 应用程序。
- Facebook 的研究人员在 10 亿张 Instagram 图片上训练了 AI 系统，实现了自我监督学习的突破。
- Hive 筹集了 8500 万美元的资金，以帮助审核内容、识别对象等。
- Microsoft Build 开发者大会上，微软展示了用于 Minecraft 游戏的 AI 助手。
- 毕马威的调查显示，许多人认为人工智能的发展速度过快，存在伦理和监管的争议。
- 郑州大学的研究人员提出了一种基于 KL 散度的基因选择方法，用于肺癌预测。
- 在线赌场运营商使用人工智能来了解客户并创建有针对性的营销活动。
- Meta 宣布重组其 AI 部门，将 AI 系统更广泛地分布在产品组中。
- 谷歌禁止在 Colab 中训练 deepfake 项目。
- 加密货币公司在 2021-2022 NBA 赛季的赞助中投入达 1 亿至 1.5 亿美元。

## 正文
AI及信息技术应用2022年6月6日简报
====================

本周人工AI 应用里，DALL.E、Imagen 的对比很有意思，除了实现思路不一样之外 ，明显能看到Google Imagen在有意规避一些DALLE 的缺点。本周案例里中， AI 驱动创作游戏脚本、执行游戏编程是挺有意思，身边好几人在尝试这个方向算法、技术的最优效果呢。

**01＃AI应用**

**Open AI的DALL·E和谷歌的Imagen，都可以直接通过文本描述生成类似超现实主义的图像，让机器也能拥有设计师般的创造力**  
\[摘要\]:同样作为AI创作神器，最近大火的Imagen和DALL·E为何画风会截然不同呢？二者的“创作”原理大相径庭。DALL·E 2采用CLIP将文本特征映射到图像特征，然后指导一个GAN或扩散模型生成图像。所谓CLIP，是一个在各种图像和文本上训练的神经网络，对生成的多张图片进行排序，挑选出更好的生成结果进行展示。谷歌的Imagen则使用纯语言模型只负责编码文本特征，把文本到图像转换的工作丢给了图像生成模型。语言模型部分使用的是谷歌自己的T5-XXL编码器，将训练好的文本冻结。图像生成部分则是一系列扩散模型，先生成低分辨率图像，再逐级超采样。谷歌的T5-XXL有46亿个参数，而扩大文本编码器的规模，可以有效改善文本到图像的对应关系，和图像的保真度。此外，Imagen还使用了另一种称为noise conditioning augmentation的扩散技术，帮助模型学习已添加的噪声量，从而提高图像的还原性。

谷歌风投支持的 Merlin Labs 正在构建可以驾驶飞机的人工智能  
\[摘要\]:该公司一直在与空军合作，以实现无人驾驶货机飞行。2 分钟的 ReadMerlin Labs 开发了自动驾驶飞机系统，以 25 美元的价格从隐身中脱颖而出来自 Google Ventures 和其他公司的 100 万美元资金。

语言作为 AI 模型之间的接口  
\[摘要\]:到目前为止，我们已经看到将语言与视觉相结合如何帮助在现实世界概念中建立语言模型，允许用户通过使用语言作为界面与 AI 模型进行交互。也许并不令人惊讶，我们还可以使用语言作为大型模型之间的中间接口，以超出单个大型模型所能做的方式利用它们的功能组合。这在谷歌最近的论文Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language中得到了证明，研究人员通过巧妙的提示结合了语言、视觉语言和音频语言模型来执行复杂的多模式任务。

这个“1句话生成视频”AI爆火：支持中文输入，分辨率达到480×480  
\[摘要\]:直接1句话生成视频的那种。输入“一个下午在海滩上奔跑的女人”，立刻就蹦出一个4秒32帧的小片段，Demo刚放到网上就火了起来，有网友已经急着要论文了。团队表示，CogVideo应该是当前最大的、也是首个开源的文本生成视频模型。在设计模型上，模型一共有90亿参数，基于预训练文本-图像模型CogView2打造，一共分为两个模块。第一部分先基于CogView2，通过文本生成几帧图像，这时候合成视频的帧率还很低；第二部分则会基于双向注意力模型对生成的几帧图像进行插帧，来生成帧率更高的完整视频。

**Allen Institute for AI 开源 AI 模型检测工具 LM-Debugger  
**\[摘要\]:Allen Institute for AI (AI2) 开源LM-Debugger ，这是一种交互式工具，用于解释和控制语言模型 (LM) 预测的输出。LM-Debugger 支持任何HuggingFace GPT-2 模型，并允许用户通过动态修改模型神经网络隐藏层中的更新来干预文本生成过程。该版本由 AI2 研究员 Mor Geva Pipek 在 AI2 博客上宣布。基于之前的工作通过 Geva 及其同事，LM-Debugger 通过 Transformer 网络的隐藏前馈层显示内部令牌表示及其更新。除了支持 HuggingFace GPT-2 模型外，LM-Debugger 还可以“只进行少量本地修改”即可在其他模型上运行。使用系统的交互式 UI，用户可以通过每一层跟踪令牌表示的更新，并可以通过抑制小的子更新来影响模型的输出。

**Hilary Mason讲述了如何使用 AI 来创建可玩的角色扮演游戏**  
\[摘要\]:Hidden Door的联合创始人Hilary Mason介绍人工智能和机器学习来帮助创建角色扮演游戏(RPG) 并为其提供动力的初创公司。Hidden Door 根据用户输入创建 RPG，他们的平台根据用户的选择以及他们决定接下来应该发生的事情动态生成文本、艺术、构图。  

连线杂志报道：至少有 14 家公司出售使用 GPT-3（OpenAI 的语言模型）的软件，以生成标题、产品描述、博客文章和视频脚本  
\[摘要\]:ContentEdge允许用户在配备 GPT-3 驱动工具的编辑窗口中键入或粘贴文本以改进它。一种工具建议经常搜索的关键字。另一个生成的段落中散布着在谷歌排名靠前的网页上找到的单词。Jasper为 50 种常见类型的营销帖子提供模板，包括 YouTube 视频脚本、LinkedIn 简历和亚马逊产品描述。它根据公司名称、产品描述和选定的语气（例如“专业”或“Hulk Hogan”）创建量身定制的散文。当 GPT-3 逐字复制其训练数据时，抄袭检查器会标记实例。Copysmith专注于在营销活动中生成具有凝聚力的语言。用户可以在模板中输入大纲或关键字，Copysmith 将生成文本并检查是否存在抄袭。

GPT-3 的杀手级应用程序可以帮助营销人员吸引点击和游戏 Google 排名  
\[摘要\]:生成营销线已被证明是文本生成技术的首批大规模用例之一，在 2020 年OpenAI 宣布 GPT-3 商业版时实现了飞跃。仅 Jasper 就声称拥有超过 55,000 名付费用户，而 OpenAI 表示，一个竞争对手拥有超过 100 万用户。WIRED 统计了 14 家公开提供营销工具的公司，这些工具可以使用 OpenAI 的技术生成博客文章、标题和新闻稿等内容。他们的用户谈论算法驱动的写作，好像它很快就会像自动拼写检查一样无处不在。OpenAI 副总裁 Peter Welinder 表示，面向营销人员的人工智能工具的迅速崛起让他感到意外。他现在理解它的部分原因是 GPT-3 的局限性，使用 Jasper 之类的工具的人可以消除算法生成文本中的故障或不实之处，或者单击以调出新建议。“这是第一个有效的用例之一”

**微软开源 Counterfit 人工智能安全风险评估工具**  
\[摘要\]:微软今天开源了 Counterfit，一种旨在帮助开发人员测试人工智能和机器学习系统安全性的工具。

据 [Forrester](https://haxitag.com/search?q=Forrester) 称，人工智能、机器学习、计算机视觉和自然语言处理是今年银行的顶级技术投资之一  
\[摘要\]:[Forrester](https://haxitag.com/search?q=Forrester) 在其报告中表示，机器学习可以提高欺诈检测和贷款发放等领域的流程自动化。它说，机器学习可以帮助银行“提供更加个性化的体验”。在接受调查的银行和供应商中，近 37% 的人表示人工智能提高了运营效率。33% 的人表示 ML 可以改善客户体验。在金融服务中使用人工智能的 23% 使用聊天机器人等自然语言处理技术，19% 使用自然语言理解。

感知器：感觉疼痛的机器人和预测足球运动员动作的人工智能  
\[摘要\]:格拉斯哥团队的人造皮肤利用了一种基于“突触晶体管”的新型处理系统，旨在模仿大脑的神经通路。这些晶体管由印刷在柔性塑料表面的氧化锌纳米线制成，连接到皮肤传感器，该传感器记录电阻的变化。DeepMind 声称已经开发了一种人工智能模型Graph Imputer，该模型可以仅使用部分球员的摄像头记录来预测足球运动员的移动位置。更令人印象深刻的是，该系统可以在摄像机视野之外对球员进行预测，使其能够相当准确地跟踪场上大多数（如果不是全部）球员的位置。

Snorkel AI 推出应用程序工作室，这是开发 AI 应用程序的最快方式，并筹集了 3500 万美元的增长资金，由 Lightspeed Venture Partners 领投  
\[摘要\]:Snorkel AI 是一家通过编程数据标记加速企业 AI 应用程序开发和部署的公司，今天宣布推出 Application Studio，这是一个可视化构建器，具有基于常见 AI 用例的模板化解决方案过去六年在顶级学术机构进行的数百次部署和研究的最佳实践。Application Studio 处于预览阶段，将于今年晚些时候在 Snorkel Flow 中全面推出，这是第一个以编程方式标记数据并迭代训练、部署和分析模型的 AI 开发平台。“Snorkel AI 解决了需要通过生产 ML 对其业务进行数字化转型的企业的关键痛点。他们的数据团队难以大规模构建、训练和部署准确的模型，因为编码复杂且数据量不断增加。他们需要优化Eckerson Group 研究副总裁 Kevin Petrie 说：“他们使用现有代码，加速模型开发并更有效地组织训练数据。他们还需要在支持整个 ML 生命周期的通用平台上进行协作。” 

Facebook 的新算法在 10 亿张 Instagram 照片上进行了训练  
\[摘要\]:Facebook 的研究人员通过在 10 亿张未标记的 Instagram 图片上训练 AI 系统，在自我监督学习方面取得了突破。该模型被称为 SEER (SElf-SupERvised)，被提供了 10 亿张公开可用的 Instagram 图片，这些图片以前没有经过手动管理。但是，即使没有通常用于算法训练的标签和注释，SEER 也能够自主地处理数据集，边学习边学习，并最终在目标检测等任务上达到最高水平的准确性。这种被恰当地命名为自我监督学习的方法已经在人工智能领域得到了广泛认可：它包括创建可以直接从提供的信息中学习的系统，而无需依赖仔细标记的数据集来教他们如何学习执行任务，例如识别照片中的对象或翻译一段文本。  

Hive 为基于 AI 的 API 筹集了 8500 万美元，以帮助审核内容、识别对象等  
\[摘要\]:Hive，它基于来自全球约 200 万人的众包贡献建立了一个训练数据宝库，然后为一组 API 提供支持，这些 API 可用于自动识别对象、单词和短语的图像——这一过程不仅用于内容审核平台，以及为自主系统、后台数据处理等构建算法——已经筹集了 8500 万美元的资金，这家初创公司已经确认它现在的价值为 20 亿美元。

**Minecraft的代码编写 AI 指向计算机的未来**  
\[摘要\]:Microsoft Build开发者大会上，该公司首席技术官Kevin Scott展示了一款用于Minecraft游戏的 AI 助手。游戏中的非玩家角色由微软一直在测试的自动生成软件代码的机器学习技术提供支持。这一壮举暗示了人工智能的最新进展如何通过替换您点击、键入和单击以导航到您只需与之对话的界面的界面来改变未来几年的个人计算。Minecraft 代理通过使用游戏的软件 API 在幕后将键入的命令转换为工作代码来适当地响应这些命令。控制机器人的 AI 模型接受了大量代码和自然语言文本的训练，然后展示了 Minecraft 的 API 规范以及一些使用示例。例如，当玩家告诉它“到这里来”时，底层 AI 模型将生成让代理向玩家移动所需的代码。在 Build 上展示的演示中，该机器人还能够执行更复杂的任务，例如检索项目并将它们组合成新的东西。而且由于该模型接受了自然语言和代码的训练，它甚至可以回答有关如何构建事物的简单问题。

新报告称，人工智能采用速度过快  
\[摘要\]:毕马威进行调查了来自政府和六个行业领域的 950 名企业和政府决策者：科技、零售、金融服务、工业制造、医疗保健和生命科学，“许多人说它发展得太快了。这可能是因为当前围绕人工智能的伦理、治理和监管的争论。许多商业领袖不了解他们的组织为控制和治理人工智能所做的工作，并可能担心风险正在发展”，具体而言，工业制造 (55%)、零售业 (49%) 和科技业 (49%) ，政府领导人，37% 的人表示人工智能发展得太快，让人不舒服。对于那些拥有高人工智能知识的受访者，51% 的人表示人工智能发展得太快了。然而，即使速度加快，93% 的金融服务企业领导者对人工智能检测欺诈的能力充满信心，79% 的政府决策者对人工智能提高官僚效率的能力充满信心。政府决策者表示，人工智能面临的两大潜在风险是网络安全漏洞（63%）和隐私违规（42%）。

五项人工智能研究，助力医疗检测疾病治疗  
\[摘要\]:针对基因表达数据集数据集小、维度高、数据不平衡的缺点，郑州大学的研究人员提出了一种基于KL散度的基因选择方法，选择一些 KL 散度较高的基因作为模型特征。然后使用 Focal Loss 作为损失函数构建深度神经网络模型，同时使用 k-fold 交叉验证方法来验证和选择最佳模型。结果表明，该研究提出的基于 KL 散度基因选择的深度学习模型方法在验证集上的 AUC 为 0.99。模型的泛化性能很高。说明基于 KL 发散基因选择的深度神经网络模型，是一种准确有效的肺癌预测方法。

人工智能是在线赌场行业增长的背后吗？  
\[摘要\]:在线赌场运营商需要了解他们的客户以保持相关性 并创建有针对性的营销活动. 做到这一点的最佳方法之一是通过人工智能，它决定了玩家访问最多的游戏、公司网站的访问频率以及消费者对游戏和体育赛事的投注量。在线赌博中的人工智能还通过高级机器人提供更高质量的客户服务。

**02＃产品市场创新**

Meta 宣布重组其 AI 部门，其 AI 系统将更广泛地分布在 Meta 的产品组中  
\[摘要\]:Facebook 首席技术官 Andrew Bosworth 将这些变化称为 Meta AI 的“新的去中心化组织结构”。根据 Bosworth 的说法，这个想法是将 Meta AI 系统的所有权分配给其产品组，“这将加速整个公司采用重要的新技术......”AI4AR 是一个为增强现实开发AI 技术的团队，将加入 Meta 的Reality Labs部门专注于元宇宙的 XR 团队，其 AI 研究团队 FAIR 将成为其 Reality Labs 研究部门的支柱。

FAIR何去何从  
\[摘要\]:其中最重磅的，原Facebook AI研究院FAIR将并入元宇宙核心部门Reality Labs。自扎克伯格宣称要All in元宇宙以来，Meta已经有20+核心高管和顶尖AI科学家离职。包括Reality Labs商务合作副总裁Hugo Barra、AR/VR内容副总裁Mike Verdu、Facebook AI产品主管Ragavan Srinivasan等人，都已经于去年辞职。

**03＃监管与合规**

实测7款直播平台：打赏榜单仍存在，主播连麦对决次数暂未受限  
\[摘要\]:《关于规范网络直播打赏 加强未成年人保护的意见》发布约20天后，新京报贝壳财经记者通过7大直播平台随机观看直播发现，监管日益趋严，卖惨、审丑、打低俗擦边球等直播乱象有所改善，主播也在寻找新出路。取消小时排行榜、打击虚假人气等治理措施将进一步改变直播生态。

《网络安全法》实施五周年座谈会举行，蚂蚁集团受邀参加并发言  
\[摘要\]:韦韬表示，蚂蚁集团在网络安全与数据安全领域重视与同行进行交流和开源共享：和信息产业信息安全测评中心、中科院信工所一起合作发布了《安全平行切面白皮书》，与和中国软件测评中心、国家信息中心信息安全研究一起合作发布了《数据安全复合治理白皮书》，开发的可信执行环境隐私计算操作系统Occlum入选2021“科创中国”开源创新榜年度优秀开源产品，也是该榜单中唯一聚焦隐私计算领域的入选开源项目。韦韬介绍了蚂蚁集团团落实网络运营者主体责任的相关工作：蚂蚁集团高度重视网络安全与数据安全相关的技术创新与破局，强调依托系统、数据和算法方面的科技能力创新，实现行业安全攻防与治理落地等难题的破局，并积极与同行进行交流和开源共享。

深度造假相关技术谷歌已禁止在 Colab 中训练 Deepfakes  
\[摘要\]:谷歌不再允许在其 Colaboratory (Colab) 在线计算服务上进行 deepfake 项目。Colab 更新了条款，禁止为深度伪造训练 AI 模型，包括将对象的脸与另一个人的脸互换的视频。

加密听证会共和党官员：需要合理的监管规则，以确保Web3革命发生在美  
\[摘要\]: 西甲皇家贝蒂斯将在Fancurve平台推出元宇宙数字球衣 BlockBeats 消息，6 月 1 日，西甲皇家贝蒂斯俱乐部宣布与元宇宙服装初创公司 Fancurve 签署了一项为期三年的合作协议，后者将为该俱乐部打造元宇宙数字球衣。密货币公司在本次NBA赛季赞助中投入达1亿至1.5亿美元，仅次于科技公司 BlockBeats 消息，6 月月1 日，据 Finbold 报道，加密货币公司是 2021-2022 NBA 赛季主要赞助品牌之一。

---
## 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://haxitag.com/brief/ai-brief-20220606-ai202266](https://haxitag.com/brief/ai-brief-20220606-ai202266)
**来源索引（站内可追溯）**：[麦肯锡](https://haxitag.com/search?q=%E9%BA%A6%E8%82%AF%E9%94%A1)、[普华永道](https://haxitag.com/search?q=%E6%99%AE%E5%8D%8E%E6%B0%B8%E9%81%93)、[Gartner](https://haxitag.com/search?q=Gartner)、[IDC](https://haxitag.com/search?q=IDC)、[Forrester](https://haxitag.com/search?q=Forrester)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。
