# AI及信息技术应用2023年3月28日简报

## 核心定义
> 人工智能应用是指将人工智能技术应用于各个领域的实践，包括但不限于语音识别、图像处理、自然语言处理等，以实现自动化、智能化和高效化的目标。

## 核心洞察（TL;DR）
- LLAMA模型在fintuing领域的应用逐渐增多，支持私有化模型和小算力需求的部署。
- Tavus公司利用生成式AI为个性化视频提供支持，Replit与谷歌合作提供AI编程工具。
- 微软正在探索在Bing聊天中投放广告，Perplexity AI筹集2600万美元与Google竞争搜索市场。
- Google的人工智能Bard被编程以警告用户其易出错，Fourthline获得5000万欧元资金。
- OpenAI宣布ChatGPT支持插件，研究人员比较了人类与生成式AI的创造力。
- ColossalChat开源解决方案克隆ChatGPT，GPT4ALL和Dolly等新模型发布。
- OpenFlamingo框架用于训练和评估多模式模型，LLaMA-Adapter实现高效微调。
- HuggingGPT系统利用LLM连接AI模型，LMFlow开源平台支持大模型训练。
- Scale AI在数据标注领域保持领先，微软推出Security Copilot保护网络安全。
- 彭博推出BloombergGPT，Midjourney开发AI“sus”检测器。
- 技术伦理组织投诉OpenAI，意大利隐私监管机构禁止ChatGPT。
- FTC发布人工智能标准，OpenAI的GPT-4不满足要求。

## 关键事实与数据
- LLAMA模型参数量小于10B，支持中英文双语能力。
- Tavus公司利用AI生成个性化视频，Replit拥有2000万用户。
- 微软Bing聊天预览模式，Perplexity AI筹集2560万美元。
- Google Bard警告用户易出错，Fourthline处理3500种文件类型。
- OpenAI ChatGPT插件支持多平台，研究人员比较了6个生成式AI聊天机器人。
- ColossalChat开源解决方案与ChatGPT技术相似，GPT4All参数量为7B。
- Dolly模型展示高水平指令遵循能力，OpenFlamingo提供Python框架。
- LLaMA-Adapter参数量1.2M，HuggingGPT连接HuggingFace社区AI模型。
- LMFlow支持大模型训练，Scale AI在数据标注领域保持领先。
- Security Copilot内置GPT-4，BloombergGPT参数量为500亿。
- Midjourney开发AI“sus”检测器，Twitter开源推荐系统训练管道。
- Levi's与Lalaland.ai合作，ChatGPT突遭大面积封号。
- 技术伦理组织投诉OpenAI，意大利隐私监管机构禁止ChatGPT。
- FTC发布人工智能标准，OpenAI的GPT-4不满足要求。

## 正文
AI及信息技术应用2023年3月28日简报
=====================

本周人工智能应用最突出的两个关键词“开源”“封禁”，绚烂多彩的AI应用又一次进阶，到了大量基于LLAMA的fintuing模型出来，可以做私有化模型和小算力需求的部署了，这是一个有趣的玩法，有人总结说ChatGPT像iOS，生态的广度和活跃度很广，而LLAMA像安卓，应用场景的向下纵深可以做的更深更细，无论如何类比，都有一个很现实的问题，技术在监管、伦理道德的博弈开始广泛展开，政治也着实介入，openAI亚洲、意大利大规模的双向封禁确实让很多灰色生意暴涨。

**01＃AI应用**

Tavus 利用生成式 AI 通过语音和面部克隆为个性化视频提供支持  
************\[摘要\]************一家名为Tavus的新兴初创公司希望通过使公司能够创建为特定个人量身定制的“独特”视频而留下自己的印记，但完全基于单一的初始记录。这个想法是，例如，销售和营销团队可以根据潜在客户通过在线表格提交的文本数据，向潜在客户发布源源不断的视频推介。或者猎头可能会使用该平台使用从他们的 LinkedIn 个人资料中收集的数据向潜在候选人发送多个个性化视频，这就是 Tavus 想要解决的问题：允许用户在几分钟内创建自己的 AI 视频模板，然后从原始来源生成无限数量的视频版本。

代码合作伙伴 Replit Ghostwriter  
************\[摘要\]************Replit 提供了一个 AI 编程工具Ghostwriter ，它提供内联代码建议和其他功能。谷歌将为 Replit 提供人工智能模型和计算资源，Replit 声称其云软件开发平台拥有 2000 万用户。谷歌云将其语言生成人工智能技术引入 Replit，这是一个面向开发人员的代码编辑平台。根据新的战略合作伙伴关系，Google Cloud 将托管 Replit 的集成开发环境 (IDE)，这是供程序员编写和编辑代码的基于云的平台。通过 Ghostwriter，开发人员将获得对谷歌云基础设施、基础模型和服务的访问权限。

一位发言人证实，微软正在为新的 Bing 聊天带来更多广告  
************\[摘要\]************此前，一位微软高管在一篇博客文章中透露，该公司正在探索在搜索引擎的聊天体验中投放广告。该公司将与其内容出现在机器人响应中的合作伙伴分享广告收入。微软公关总监凯特琳·罗尔斯顿 (Caitlin Roulston) 证实，新广告将在 Bing 聊天中显示，与其传统搜索结果中一样。Roulston 指出，新的 Bing AI 仍处于预览模式，这意味着广告的显示方式“可能会有一些变化”。与此同时，一些 Bing 用户已经报告说在聊天回复中看到了广告。

AI Search Startup 筹集 2600 万美元与 Google 竞争  
************\[摘要\]************Perplexity AI 是试图用人工智能重塑搜索的初创公司浪潮的一部分,使用人工智能开发会话搜索引擎，在由 New Enterprise Associates 牵头的一轮融资中筹集了 2560 万美元，这是蓬勃发展的人工智能领域的最新一笔交易。 Perplexity 是越来越多寻求使用人工智能来放松 Google 在线控制的初创公司的一部分搜索，其投资者中有数量惊人的谷歌自己的人工智能研究人员。

Google 的人工智能 Bard 能做什么？我们为您测试过  
************\[摘要\]************谷歌对巴德进行了编程，以确保它警告用户它容易出错。有些错误很容易被发现。例如，当被要求提供有关美联社记者质疑它的一些信息时，巴德大部分基本知识都是正确的，很可能是从 LinkedIn 和 Twitter 上发布的个人资料中摘取花絮。但巴德也神秘地吐出了关于这位记者的学术背景，部分信息是错误的。

Fourthline 是一个由人工智能驱动的平台，用于检测金融中的欺诈和其他滥用行为，宣布它获得了5000 万欧元（5400 万美元）的资金  
************\[摘要\]************这家总部位于阿姆斯特丹的初创公司为身份验证等银行和金融服务提供人工智能驱动的解决方案。其 AI 模型能够处理 3,500 种类型的文件，以搜索欺诈和其他滥用行为的证据,其专有技术产品可帮助银行确保 KYC（了解您的客户）、AML（反洗钱）和 GDPR 合规性。其著名客户包括 NN、Wish、N26 和西联汇款。新资本 Finch Capital 和其他身份不明的投资者将允许 Fourthline 扩大业务并加速增长。

OpenAI 宣布ChatGPT支持插件  
************\[摘要\]************这些插件是企业将 AI 模型插入其系统以完成特定任务的工具，例如预订航班或编写代码。 上周推出的第一批插件与 Instacart、Slack、Expedia、Wolfram 以及其他平台和品牌兼容。开发人员可以创建 ChatGPT 插件来与其他互联网服务交互，并提供基本聊天机器人之外的更多功能。用户将能够从 ChatGPT 插件界面或“商店”访问插件，从而允许他们选择和安装插件。Klarna Bank AB 的插件使用 ChatGPT 为购买推荐产品。Expedia 创建了一个用于旅行计划的插件，Instacart 将提供一个用于杂货订单的插件。

人工智能能否匹敌人类创造力？一项新研究比较了人类与生成式人工智能聊天机器人之间原创想法的产生  
************\[摘要\]************在最近的一篇研究论文中，一些研究人员将人类产生的想法与生成式人工智能产生的想法进行了比较。研究人员用于比较的六个生成式 AI 聊天机器人是alpa.ai 、 Copy.ai 、ChatGPT（版本 3 和 4）、 Studio.ai和 YouChat。为了确定人工智能产生的创意和人类产生的创意之间的异同，创意的质量和数量都经过了独立评估。人类和专门为此目的受过训练的 AI 都可以访问它们。

一个用于克隆具有完整 RLHF 管道的 ChatGPT 的开源解决方案，认识 ColossalChat  
************\[摘要\]************虽然 ChatGPT 等 LLM 可以作为服务访问，但需要一个实用的开源替代方案，其中包括一个完整的 RLHF 管道。Colossal-AI 开发了ColossalChat ，这是一种基于 LLaMA 模型的新型开源解决方案，与原始的 ChatGPT 技术解决方案非常相似。ColossalChat 在不到 10B 的参数下，通过 RLHF finetuning 就可以实现中英文双语能力，其结果可与 ChatGPT 和 GPT-3.5 相媲美。

GPT4ALL  
************\[摘要\]************研究人员发布了 GPT4All。GPT4All 是一个 7B 参数语言模型，它是从一组精选的 400k GPT-Turbo-3.5 助手式生成中进行微调的。受 Alpaca 学习的启发，研究团队精心策划了约 80 万个提示响应样本，以生成 43 万个高质量的助手式提示/生成训练对，包括代码、对话和故事。研究团队发布了 800k 数据样本供任何人构建，并发布了一个可以在笔记本电脑上运行的模型。

Databricks 开源 Dolly  
************\[摘要\]************一种类似于 ChatGPT 的生成式 AI 模型，可以更轻松、更快速地训练。Dolly是一种低成本的大型语言模型 (LLM)，它展示了 ChatGPT 中令人惊讶的高水平指令遵循能力。这项工作表明，任何能够访问高质量训练数据和过时的开源大型语言模型 (LLM) 的人都可以在一台机器上训练它在 30 分钟内像 ChatGPT 一样执行。Dolly 使用来自 Alpaca 的数据对 EleutherAI 现有的开源 60 亿参数模型进行微调，以引发头脑风暴和文本生成等指令遵循能力。

认识 OpenFlamingo  
************\[摘要\]************用于训练和评估能够处理图像和文本的大型多模式模型 (LMM) 的框架。OpenFlamingo是一个开源框架，旨在通过提供能够处理各种视觉语言任务的系统，使对最先进的大型多模式模型 (LMM) 的访问民主化。作为 DeepMind 的 Flamingo 模型的复制品，OpenFlamingo 提供了一个 Python 框架来训练 Flamingo 风格的 LMM、一个大规模多模态数据集、一个上下文学习评估基准，以及基于 LLaMA 的 OpenFlamingo-9B 模型的第一个版本。

具有零初始注意力的语言模型的高效微调，认识 LLaMA-Adapter   
************\[摘要\]************来自中国和加州大学洛杉矶分校的研究人员发布了 LLaMA-Adapter。 LLaMA-Adapter 只有 1.2M 可学习参数和 52K 指令数据，可在一小时内将 LLaMA 转变为指令跟随模型，提供高质量的响应。他们采用了可学习的适应提示，并将它们添加到更高转换器层的输入文本标记中。具有零门控的零初始注意力机制自适应地将新的教学线索注入 LLaMA，同时有效地保留其预训练知识。 LLaMA-Adapter 可以简单地扩展到多模态输入，例如图像，用于图像条件 LLaMA，它在最近的多模态科学问题基准ScienceQA上实现了卓越的推理能力。

用ChatGPT「指挥」数百个模型，HuggingGPT让专业模型干专业事  
************\[摘要\]************来自浙江大学和微软亚研的研究者最近提出了一种让 LLM 充当控制器的新方法，让 LLM 来管理现有的 AI 模型以解决复杂的 AI 任务，并且使用语言作为通用接口。该研究提出的 HuggingGPT 是一个利用 LLM 连接机器学习社区（例如 HuggingFace）中各种 AI 模型以解决复杂 AI 任务的系统。

3090单卡5小时，每个人都能训练专属ChatGPT，港科大开源LMFlow  
************\[摘要\]************该项目由香港科技大学统计和机器学习实验室团队发起，致力于建立一个全开放的大模型研究平台，支持有限机器资源下的各类实验，并且在平台上提升现有的数据利用方式和优化算法效率，让平台发展成一个比之前方法更高效的大模型训练系统。此外，该项目的最终目的是帮助每个人都可以用尽量少的资源来训练一个专有领域的、个性化的大模型，以此来推进大模型的研究和应用落地。在 LMFlow 的加持下，即便是有限的计算资源，也能让使用者针对专有领域支持个性化训练。基于 70 亿参数的 LLaMA，只需 1 张 3090、耗时 5 个小时，就可以训练一个专属于自己的个性化 GPT，并完成网页端部署。开源库作者们已经利用这个框架单机训练 330 亿参数的 LLaMA 中文版，并开源了模型权重用于学术研究。

Scale AI：大模型还需要数据标注吗？  
************\[摘要\]************客户标注数据主要通过内部建团队、众包平台、与第三方数据标注创业公司合作。数据标注赛道的头部玩家，头部效应、品牌效应强 Scale 是数据标注赛道的绝对的头部玩家，果我们认为人工标注和“动化+人工”的标注方式在未 5-10 年内会长期存在，那么目前看 Scale 会一直保持领先。事实上，Scale AI 的标注产品研发及销售情况与底层的行业趋势及各行业发展情况有很大关系，在动驾驶之后，Scale 的数据标注订单还政府、电商（零售商品目录）、机器人、大模型（RLHF）等领域，分别对应过去几年 AI 行业几波大的趋势和机会。类型一 公司内部建的数据标注团队 由于某些数据比较敏感，有的公司会选择内部建数据标注团队，作为 Scale 等外包方案的补充。

ChatGPT自己会选模型了！微软亚研院+浙大爆火新论文，HuggingGPT项目已开源  
************\[摘要\]************微软亚洲研究院和浙江大学的研究团队，发布了一个大模型协作系统HuggingGPT，HuggingGPT利用ChatGPT作为控制器，连接HuggingFace社区中的各种AI模型，来完成多模态复杂任务。这意味着，你将拥有一种超魔法，通过HuggingGPT，便可拥有多模态能力，文生图、文生视频、语音全能拿捏了。

微软推出Security Copilot：内置GPT-4，自动抵御65万亿个网络安全威胁  
************\[摘要\]************据悉，Security Copilot将目前最强大语言模型GPT-4内置在产品中，并与微软拥有65万亿个网络安全威胁的安全模型库相结合使用，为企业、个人用户提供网络安全、恶意代码防护、隐私合规监控等生成式自动化AI服务。Microsoft Security Copilot产品介绍为什么推出Microsoft Security Copilot扫描网络安全、抵御黑客入侵一直是专业网络安全员的职责，尽管很很多杀毒软件提供了“傻瓜式”操作，但在病毒扫描、响应以及客户体验方面并不理想，经常漏掉隐蔽、狡猾的恶意代码对数据资产造成损失。

金融圈注意了！彭博研究人员刚推出BloombergGPT  
************\[摘要\]************3月30日，根据彭博社发布的研究报告显示，其构建了迄今为止最大的特定领域数据集，并训练了专门用于金融领域的LLM，开发了拥有500亿参数的语言模型——BloombergGPT。从测试来看，BloombergGPT在五项任务中有四项表现最佳，NER排名第二：测试一：ConvFinQA数据集是一个针对金融领域的问答数据集，包括从新闻文章中提取出的问题和答案，旨在测试模型对金融领域相关问题的理解和推理能力力。该模型依托彭博社的大量金融数据源，构建了一个3630亿个标签的数据集，支持金融行业内的各类任务，在执行金融任务上的表现远超过现有模型，在通用场景上的表现与现有模型也能一较高下。

****02＃产品市场创新****

Midjourney的创始人沟通透露的一些消息  
************\[摘要\]************Midjourney禁用免费试用功能的原因：”由于一群用户（数以万计）在中国利用免费试用系统进行了大规模的协作努力，而且其中很多问题与 Discord 系统中的漏洞有关，所以我们将暂时停用免费试用，直到下一次系统更新部署为止。“Midjourney已经在网站建设上加大力度，他们招了很多web开发人员。接下来的1-2个月他们将推出在网站上生成图片的功能（类似Stable Diffusion的Web UI）。目前功能已经开发完成，他们内部测试感觉非常好。Midjourney正在开发一款 AI “sus” 检测器，以实现更好的内容审核和减少被屏蔽的单词。

**Twitter算法开源  
**************\[摘要\]************Twitter 已经开源了它的算法。他们已经发布了推荐系统训练管道，但没有发布可以揭示Twitter 信息流行为背后秘密的权重。这是一个解释 RecSys 工作原理的好帖子。

Levi's 将用 AI 生成的假货“补充”人体模型  
************\[摘要\]************Levi 宣布与Lalaland.ai建立合作伙伴关系，后者是一家生成数字模型的公司。Levi 将合作伙伴关系视为迈向多元化和可持续性的一步。 “我们将时尚和技术视为一门艺术和一门科学，我们很高兴能与 Lalaland.ai 合作，这家公司拥有如此高质量的技术，可以帮助我们继续我们的旅程，为更多元化和包容的客户服务经验”， 列维在新闻稿中说。

ChatGPT突遭大面积封号  
************\[摘要\]************据传闻，受影响的账户已经达到了数百万，亚洲是重灾区，其中不少都是国内的账号。社交媒体上哀鸿遍野，网友纷纷表示自己的账号忽然就被封禁了，没有得到任何警告。就连花了一百多块开通Plus会员的账号，都未能幸免于难。部分账号申诉获得解除。

Midjourney的下一步：脱离Discord，开放Api，加入编辑功能  
************\[摘要\]************MJ是一家公司，而 SD 只是一个开源的程序，MJ在法律上的限制会比 SD 要大很多，所以哪怕类似垫图这样的功能，它都故意让生成的图片与原图不那么吻合。

****03＃合规****

技术伦理组织人工智能和数字政策中心已向美国联邦贸易委员会投诉OpenAI  
************\[摘要\]************该中心敦促联邦机构调查 OpenAI 并迫使其暂停其大型语言模型的任何进一步商业发布。，并对隐私和公共安全构成风险”。在投诉中，该组织认为 GPT-4 能够产生宣传和恶意代码。它引用了刻板印象被纳入 LLM 培训数据的可能性，从而导致在招聘等领域出现偏见。道德中心指责 OpenAI 违反了 FTC 的 AI 产品指南以及 FTC 法案第 5 节，该节禁止不公平和欺骗性的商业行为。

AI 图像生成器 Midjourney 正在禁用免费试用  
************\[摘要\]************CEO Holz 表示，在“ 异常需求和试用滥用”之后，它将结束免费期。Midjourney 之前为用户提供了 25 个免费图像，现在用户每月需要支付 10 美元的订阅费用。其文本到图像创作者的第 5 版发布就像唐纳德特朗普和教皇弗朗西斯的假 Midjourney 制作照片一样，重新引发了关于使用人工智能传播假新闻故事的公众辩论。

阿里巴巴重组  
************\[摘要\]************阿里巴巴最近的重组是另一回事。被称为“1+6+n”的阿里巴巴计划发展成为拥有六大不同业务的单一控股公司（“1”）——每个业务都有自己的首席执行官、董事会、损益表，以及制定业务战略的自主权（“1”） “6”）。此外，控股公司旗下还有一些较小的单位，它们不太成熟，投机性更强（“n”）。

意大利隐私监管机构禁止ChatGPT  
************\[摘要\]************意大利国家数据保护机构表示，将立即阻止并调查流行的人工智能工具背后的美国公司OpenAI处理意大利用户的数据。该命令是暂时的，直到公司尊重欧盟具有里程碑意义的隐私法《通用数据保护条例》（GDPR）。暂停新的ChatGPT版本并调查其制造商OpenAI的一系列隐私，网络安全和虚假信息的呼声在大西洋两岸都在增加。埃隆·马斯克（Elon Musk）和数十名人工智能专家本周呼吁暂停更新ChatGPT。消费者权益保护组织BEUC还于3月30日呼吁欧盟和国家当局（包括数据保护监管机构）调查ChatGPT。  
  
GPT-4被投诉要求禁用：FTC发布的人工智能标准，OpenAI一个都不满足  
************\[摘要\]************这次叫停 GPT-4 的是非营利组织人工智能与数字政策中心（CAIDP）。CAIDP 请求美国联邦贸易委员会（FTC）调查 OpenAI 公司并禁止该公司进一步发布 GPT-4。CAIDP 向 FTC 提出这份申请的原因是他们认为「OpenAI 发布的消费级产品 GPT-4 存在偏见、欺骗性，并且对隐私和公共安全构成风险。模型的输出无法证明或复现，且在部署之前没有进行独立评估」。CAIDP 呼吁对美国所有商业人工智能产品进行独立监督和评估，并确保建立必要的「保护措施」，来保护消费者、企业和商业市场。此前，FTC 已经宣布一个人工智能标准，即「在促进问责制的同时，要求人工智能的使用是透明的、可解释的、公平的，并在经验上是合理的」，CAIDP 称「OpenAI 的 GPT-4 不满足这些要求中的任何一个」。

---
## 引用与溯源
**来源**：哈希泰格 (HaxiTAG)
**原始链接**：[https://haxitag.com/brief/ai-brief-20230328-ai2023328](https://haxitag.com/brief/ai-brief-20230328-ai2023328)
**来源索引（站内可追溯）**：[麦肯锡](https://haxitag.com/search?q=%E9%BA%A6%E8%82%AF%E9%94%A1)、[普华永道](https://haxitag.com/search?q=%E6%99%AE%E5%8D%8E%E6%B0%B8%E9%81%93)、[Gartner](https://haxitag.com/search?q=Gartner)、[IDC](https://haxitag.com/search?q=IDC)、[Forrester](https://haxitag.com/search?q=Forrester)
**版权声明**：本文由哈希泰格 AI 引擎优化生成，引用请注明出处。
