AI及信息技术应用2024年8月25日简报

上周AI产业呈现多元发展态势，涵盖技术突破、产品创新和行业监管等方面，编程AI纷涌。在技术领域，微软推出高效AI模型Phi-3.5，展现小型模型的潜力。软件工程AI模型Genie和AI测试工具KaneAI等产品不断涌现，推动AI在各领域应用。产品市场上，Anthropic和Midjourney等公司推出新功能，提升用户体验。在监管方面，X公司因数据使用问题面临GDPR投诉，香港发布AI指南加强治理。AI在地震预测等领域取得突破，显示其广阔应用前景。整体而言，AI产业正在快速发展，但也面临着合规和伦理等挑战。

1，AI产业及应用研究

欧莱雅推出 GenAI 即服务，助力企业创新
[摘要]：欧莱雅推出了一款基于 Google Cloud Run 和 LangChain 构建的 GenAI 即服务产品。这项服务在短短三个月内完成部署，提供了包括快速任务完成、聊天功能、图像生成和检索增强生成等关键功能。这一快速部署展示了大型企业如何在保持集中控制和安全性的同时，利用生成式人工智能技术推动开发人员和业务部门的创新。

Phi-3.5：微软发布新一代高效 AI 引擎
[摘要]：微软推出了全新的 AI 模型 Phi-3.5，其紧凑性和高性能令行业瞩目。Phi-3.5 拥有 38 亿、41.5 亿和 419 亿个参数的版本，展现出卓越的推理和数学能力，性能甚至超过了 Gemini 和 GPT-4o 等知名大模型。此外，Phi-3.5 还包括能够理解图像的视觉模型，适用于从智能门铃到本地设备的各种场景。这一模型证明了较小的 AI 模型也能在特定任务中产生显著效果，推动 AI 技术向日常应用和高效利用迈进。

Genie 成为全球最强大软件工程 AI 模型，在 SWE-Bench 评估中表现卓越
[摘要]：Genie 是由 Cosine 推出的最先进的软件工程 AI 模型，在 SWE-Bench 评估中得分 30.08%，在 SWE-Lite 评估中得分 50.67%，超越了之前的行业标准。Genie 通过专有数据培训，完美模拟了人类工程师的认知和逻辑过程，使其能够以人类般的推理能力解决复杂问题。与其他简单包装基础模型的 AI 工具不同，Genie 的性能远超当前市场上的同类产品，展示了 AI 在软件工程领域的巨大潜力。

Zed 推出与 Anthropic 合作开发的 Zed AI，提升代码编辑效率
[摘要]：由 Atom 和 Treesitter 的创建者开发的流行 Rust 多人代码编辑器 Zed 推出了一项新的 AI 功能——Zed AI。Zed AI 是与 Anthropic 合作开发的托管服务，旨在通过两个核心功能提高开发人员的编码效率：助手面板和内联转换。助手面板允许开发人员通过文本界面与 AI 模型互动，从代码库或终端输出中提取上下文生成代码或获取帮助。此功能大幅增强了 Zed 作为快速、可靠文本编辑器的实用性，使开发人员能够更高效地工作。

OpenResearcher：利用人工智能加速科学研究的开源项目
[摘要]：上海交通大学、复旦大学、清华大学等多所高校和研究机构联合推出了 OpenResearcher，这是一项旨在通过人工智能加速科学研究的开源项目。该项目为研究人员提供了一个统一的平台，能够处理多种科研问题，并通过引导性问题深入理解用户查询。OpenResearcher 还整合了来自互联网和 arXiv 的检索增强功能，提供领域特定的最新知识，并配备了自定义工具，帮助研究人员优化初步结果和进行深入讨论。

Dropbox 收购人工智能调度工具 Reclaim.ai
[摘要]：Dropbox 近日收购了成立于 2019 年的人工智能调度工具初创公司 Reclaim.ai。该公司专注于利用 AI 技术优化日程安排，帮助用户更高效地管理时间。Reclaim.ai 的创始人在一段视频中表示，收购后整个 22 人的团队将加入 Dropbox，并继续开发其产品。此次收购的财务条款尚未披露，但这一举措表明 Dropbox 正在加强其在工作效率工具领域的布局，借助 AI 技术进一步提升用户的工作体验。

AI21发布具备256K上下文窗口的Jamba 1.5系列开放模型
[摘要]：AI21 Labs 发布了全新 Jamba 1.5 系列开放模型，包括 Jamba 1.5 Mini 和 Jamba 1.5 Large。它们基于创新的 SSM-Transformer 架构，将 Transformer 模型的高质量与 Mamba 的高效能相结合。这些模型具备 256K 的有效上下文窗口，使其在处理大规模文本时表现出色。Jamba 1.5 Mini 超越了 Claude 3 Haiku、Mixtral 8x22B 和 Command-R+，而 Jamba 1.5 Large 则优于 Claude 3 Opus、Llama 3.1 70B 和 Llama 3.1 405B，凭借更高的性价比在同类产品中脱颖而出。

Ideogram发布前沿文本转图像模型Ideogram 2.0
[摘要]：Ideogram 推出了全新的文本转图像模型 Ideogram 2.0，从头开始训练，显著提升了逼真图像、图形设计和排版的生成质量。用户可以从逼真、设计、3D 和动漫等多种风格中进行选择，并生成符合特定调色板的图像。与此同时，Ideogram 还推出了 iOS 应用程序和 API 的测试版，为用户提供更多使用和集成的可能性。这一新版本标志着文本转图像技术的进一步发展，满足了更广泛的创意需求。

Luma AI发布Dream Machine 1.5，提升文本转视频技术
[摘要]：Luma AI 推出了 Dream Machine 1.5，这是其 AI 视频模型的升级版，带来了更高质量的文本转视频功能。新版本不仅在理解文本提示上更为智能，还提供了自定义文本渲染选项，并进一步改进了图像转视频的效果。Dream Machine 1.5 的发布标志着 Luma AI 在视频生成领域的持续创新，为用户提供了更强大的创作工具和更高效的制作流程。

Agibot推出五轮双足人形机器人，拓展多功能应用
[摘要]：中国机器人初创公司 Agibot 推出了具备五轮双足结构的人形机器人，能够完成从家务到工业操作等各种任务。他们的旗舰机器人元征 A2 配备了先进的人工智能传感器，能够识别和理解文本、音频及视觉信息，并精确执行如穿针引线等复杂任务。这一创新设计不仅提升了机器人的多功能性，还为其在家庭和工业领域的广泛应用奠定了基础，展示了 Agibot 在机器人技术领域的前沿实力。

AI21 Labs发布Jamba 1.5，提供卓越速度和质量
[摘要]：AI21 Labs 刚刚推出了 Jamba 1.5 系列开放模型，包括 Jamba 1.5 Mini 和 Jamba 1.5 Large。基于全新的 SSM-Transformer 架构，这些模型将 transformer 的优势与 Mamba 的效率相结合，实现了长上下文处理、速度和质量的卓越平衡。Jamba 1.5 拥有市场上最长的 256K 上下文窗口，适合长文档摘要、分析等任务，处理速度比同类模型快 2.5 倍，并在质量上超越了同级别的主要竞争对手。Jamba 1.5 现已在 Hugging Face 上提供下载，并将很快支持 LangChain 和 LlamaIndex 等流行框架。

KaneAI：AI驱动的软件测试工具，实现跨平台自动化测试
[摘要]：KaneAI 是一款基于人工智能的软件测试工具，旨在通过自然语言生成、调试和管理跨 Web 和移动应用程序的自动化测试。该工具简化了测试过程，使开发人员能够快速创建和优化测试用例，提高测试的效率和准确性。KaneAI 的推出标志着软件测试领域的又一次技术进步，尤其在应对复杂的多平台应用测试需求方面展现了强大的潜力。

Scopilot：AI 工具助力软件项目范围定义与产品发现
[摘要]：Scopilot 是一款 AI 工具，专为加速软件项目范围定义而设计。它通过自动生成功能、用户故事和澄清问题，帮助团队更快速地明确项目需求。此外，Scopilot 还在产品发现和规范制定过程中提供支持，确保项目的规划更加精准和高效。这一工具旨在简化复杂的项目管理任务，提升团队的协作效率和项目执行的成功率。

Neo4j发布GraphRAG：开源工具包助力知识图谱构建
[摘要]：Neo4j 推出了全新的开源工具包 GraphRAG，专为开发人员打造更可靠且易于解释的生成式 AI (GenAI) 应用程序而设计。GraphRAG 生态系统能够无缝集成结构化和半结构化数据，提供更全面的知识图谱基础，适用于处理 PDF、Word 文档、YouTube 成绩单、维基百科页面等多种非结构化文本。这一工具包为 GenAI 应用的开发提供了更加稳定的支持，有助于提升 AI 模型的解释性和数据处理的准确性。

英特尔推出RAG Foundry：构建强大RAG应用的终极工具
[摘要]：英特尔发布了RAG Foundry，一个全新的开源框架，为 RAG（检索增强生成）技术提供了集数据创建、训练、推理和评估于一体的统一工作流程。其模块化设计与高度可定制的功能，使研究人员和从业人员能够更轻松地构建强大且适应性强的 RAG 解决方案。RAG Foundry 旨在简化 RAG 应用程序的开发过程，为各类复杂任务提供更高效、更灵活的支持。

LlamaIndex 发布 LlamaExtract，简化非结构化文档数据提取
[摘要]：LlamaIndex 宣布推出 LlamaExtract，这是一项托管服务，专为从非结构化文档中提取结构化数据而设计。LlamaExtract 能够自动从文档中推断数据架构，并根据用户提供的架构提取对应的值。用户可以通过简洁易用的界面或 API 来访问 LlamaExtract，从而大幅提高数据处理效率，简化数据管理流程。该服务适用于多种应用场景，如企业数据分析、合规性检查以及自动化报告生成。

Ideogram 发布 Ideogram 2.0，推出多功能图像生成工具
[摘要]：Ideogram 推出了全新版本的文本转图像模型——Ideogram 2.0。该版本支持五种不同风格的图像生成，并推出了 iOS 应用、测试版 API 和 Ideogram Search 功能。根据人工评估人员的反馈，Ideogram 2.0 的表现优于 Flux Pro 和 DALL·E 3，展示出更高的图像生成质量和多样性。该模型的免费使用和丰富的功能拓展，使其成为市场上备受关注的图像生成工具。

Perplexity AI 计划通过广告货币化，估值飙升至 10 亿美元
[摘要]：由杰夫·贝佐斯支持的人工智能搜索引擎初创公司 Perplexity 计划在今年年底前通过广告将其 AI 搜索引擎货币化。受益于不断增长的知名度，Perplexity 的估值已达 10 亿美元，是三个月前的两倍。其应用程序下载量已突破 200 万，每月解答超过 2.3 亿个问题。Perplexity 的广告计划允许广告商赞助“相关问题”或展示广告，并向出版商分成广告收入。然而，该公司近期因内容抄袭指控受到批评，尽管已进行纠正，但未来广告收入是否受影响仍需观察。

Cursor 完成 6000 万美元 A 轮融资，继续开发 AI 驱动的编码 IDE
[摘要]：Cursor 宣布成功完成 6000 万美元的 A 轮融资，此轮融资由 Benchmark 领投，其他参与者包括 Index Ventures 和 Redpoint Ventures。Cursor 计划利用这笔资金进一步构建和优化其 AI 驱动的集成开发环境（IDE），以提高开发者的编程效率和代码质量。Cursor 的 IDE 通过生成式 AI 技术提供智能代码建议、自动化代码修复和即时调试功能。

NVIDIA ACE 引入首个本地运行的小型语言模型，推动数字人技术迈向新高度
[摘要]：NVIDIA 在其 ACE 技术套件中加入了首个由 RTX AI 驱动的小型语言模型（SLM），该模型能够在本地设备上运行。这一技术突破意味着未来的数字人将具备更高的互动性和智能化水平，能够在离线环境中实现更自然和实时的对话体验。NVIDIA ACE 的这一进展将大大增强虚拟助手、游戏角色和其他数字人的应用场景，进一步缩短人与机器之间的交互距离，并推动生成式 AI 在多领域的广泛应用。

新加坡国立大学与牛津大学推出 SurgSAM-2 手术视频分割模型，提升效率与准确性
[摘要]：新加坡国立大学与牛津大学联合推出 SurgSAM-2，这是一种先进的手术视频分割模型，旨在提高手术视频分析的效率和准确性。SurgSAM-2 采用高效的帧修剪机制，实现了每秒帧数（FPS）的三倍提升，相较于其前身 SAM2，大大增强了实时处理能力。这一突破性进展有望在医疗影像领域带来显著的应用，提升手术视频分割的精度，为外科手术提供更有力的技术支持。

Mozilla 公开发布 Whisperfile 高性能音频转录与翻译工具
[摘要]：Mozilla 发布了 Whisperfile，这是一款基于 OpenAI 的 Whisper 模型开发的高性能本地工具，专注于音频转录和翻译。Whisperfile 提供了强大的本地处理能力，允许用户在无需连接网络的情况下进行准确且快速的音频转录与多语言翻译。这一工具的发布标志着 Mozilla 在隐私保护和开源技术应用上的新进展，为需要高效音频处理的用户提供了更具自主性的解决方案。

Nvidia 推出 Mistral-NeMo-Minitron 8B 模型，实现高效能和低计算成本
[摘要]：Nvidia 展示了其新发布的 Mistral-NeMo-Minitron 8B 模型，这是对上月与 Mistral AI 共同推出的 12B 版本的更新。通过修剪不必要的权重并重新训练模型，Nvidia 成功创建了一个体积更小但准确性不减的 LLM。Mistral-NeMo-Minitron 8B 在保持与其 12B 版本相同的准确度的同时，将计算成本降低了 40 倍。该模型适用于手机应用和客户服务聊天机器人，标志着 AI 领域在提升模型速度和效率方面的重要进展。

AI Scientist：全球首个自动化科研和开放式发现的 AI 系统
[摘要]：“AI Scientist” 是一个新型 AI 系统，旨在通过自动化整个科研过程来推动科学发现。该系统由多家知名机构联合开发，利用大型语言模型 (LLM) 自主生成研究思路、进行实验迭代，并撰写科学论文。AI Scientist 分为思路生成、实验执行和论文撰写三个阶段，各阶段均使用 AI 工具来提升效率与准确性。初步成果表明，该系统生成的研究论文质量已达到或超过顶级机器学习会议的标准，展示了显著加快科研进展的潜力。

GPT-4o 推出微调功能，为开发者提供定制 AI 模型的能力
[摘要]：OpenAI 推出 GPT-4o 的微调功能，这是开发者最需要的功能之一，旨在通过使用特定数据集来定制模型，从而优化其结构和基调以适应特定领域的任务。微调费用为每百万代币 25 美元，推理费用为每百万输入代币 3.75 美元，输出代币 15 美元。初步成功案例表明，行业领先者如 Cosine 和 Distyl 已在基准测试中取得显著成果。微调后的模型由开发者完全控制，确保数据隐私与安全，同时提高了应用程序的性能。

Google Gemini API 和 Google AI Studio 更新：提升上传容量和优化用户请求限制
[摘要]：Google AI Studio 和 Gemini API 进行了重要更新，PDF 页面上传大小从 300 页增加至 1,000 页或 2GB。免费版 Gemini 1.5 Flash 用户现在每分钟可发出 15 个请求、处理 100 万个代币，每天可达 1,500 个请求，并且享有免费上下文缓存和微调功能。免费版 Gemini 1.5 Pro 用户每分钟可获得 2 个请求和 32,000 个代币，每天可达 50 个请求。对于付费用户，Gemini 1.5 Pro 的每日请求限制已被取消，提供更大的灵活性和更高的性能。

Slingshot AI 获得 3000 万美元融资，估值达 2.2 亿美元
[摘要]：人工智能驱动的心理健康初创公司 Slingshot AI 刚刚从 Andreessen Horowitz 获得 3000 万美元融资，并且 Menlo Ventures 也进行了跟投。该公司运营着一款 AI 驱动的心理健康聊天机器人，融资完成后，其估值达 2.2 亿美元。这一成功融资标志着 Slingshot AI 在心理健康领域的迅速崛起和市场认可。

Procreate 反对生成式人工智能，誓言永远不会将该技术融入其产品
[摘要]：流行的 iPad 设计应用 Procreate 正式宣布反对生成式人工智能，并誓言永远不会在其产品中引入该技术。尽管 Procreate 承认机器学习具有许多优点，但公司表示当前生成式人工智能的发展方向不适合其平台。Procreate 强调不会追逐对人类创造力构成威胁的技术，尽管这样可能会面临“被抛在后面的风险”。Procreate 首席执行官詹姆斯·库达在 X 上发布的视频中进一步表达了对生成式人工智能的强烈反对立场。

AI21 Labs 发布 Jamba 1.5，开创 Mamba/Attention 混合架构新篇章
[摘要]：AI21 Labs 推出了 Jamba 1.5，这一发布在人工智能领域具有深远意义。Jamba 1.5 引入了 Mamba/Attention 混合架构，为未来的高效注意力机制开辟了广阔的应用前景。通过这一创新，AI21 Labs 不仅展示了在模型架构上的前沿突破，还为构建更高效、更灵活的 AI 系统提供了新的可能性，标志着 AI 研究的一个重要进展。

2，产品市场创新

Anthropic 在 Claude Web 界面中添加了对 LaTeX 渲染的支持
[摘要]：Anthropic 最近在其 Claude Web 界面中引入了对 LaTeX 渲染的支持，使得用户可以在对话中直接展示和编辑复杂的数学公式和科学符号。这一功能的推出旨在增强 Claude 作为生成 AI 工具的科学和教育应用，使研究人员、教师和学生能够更加高效地进行交流和合作。通过 LaTeX 支持，Claude 可以更好地满足专业用户的需求，提升其在科学计算、教育辅导和技术文档编写等领域的使用体验。

Midjourney 现在允许用户免费生成 25 张图片
[摘要]：Midjourney 近期推出了免费生成图像的服务，允许用户在其平台上免费生成多达 25 张图片。用户只需访问 Midjourney 网站并进行注册，使用 Discord 帐户或 Google 帐户即可开始创建图像。注册完成后，用户可以通过在网页版输入提示，立即开始生成图像。这个免费功能为用户提供了一个低门槛的体验机会，使更多人能够尝试 Midjourney 的 AI 图像生成技术。

D-ID 推出AI视频翻译工具，增强多语言视频创作
[摘要]：AI 视频创作平台 D-ID 推出了全新 AI 视频翻译工具，不仅能够将视频内容翻译成多种语言，还具备克隆说话者声音的能力，并将唇部动作与翻译后的语言精确同步。此工具为多语言视频创作提供了更自然和真实的观看体验，尤其适用于全球化内容的传播和多语言用户的需求。D-ID 的这一创新显著提升了视频翻译的质量和效率，为多语言内容创作开辟了新的可能性。

Dappier 推出全球首个 AI 内容和数据权利在线市场
[摘要]：Dappier 推出了全球首个 AI 内容和数据权利在线市场，允许用户授权自己的内容供全球 AI 公司使用，并从中获得公平报酬。该平台旨在解决因 AI 技术发展而带来的内容使用权和数据共享问题，为创作者和数据提供者提供新的收入来源，同时确保他们的权益得到保障。这一创新市场有望成为内容创作者和 AI 企业之间的桥梁，推动人工智能生态系统的可持续发展。

3，合规和监管

X 公司因未经授权使用数据进行 AI 训练面临 GDPR 投诉
[摘要]：欧洲隐私倡导组织 NOYB（None of Your Business）已对 X 公司提起九项 GDPR 投诉，指控其在未获用户同意的情况下，使用超过 6000 万名欧洲用户的个人数据来训练其大型语言模型“Grok”。NOYB 认为，X 公司的行为严重违反了欧洲的隐私保护法律，可能面临高额罚款和其他法律制裁。此事件凸显了在 AI 技术快速发展的背景下，数据隐私和合规性的重要性，并可能引发对其他类似行为的监管审查。

香港发布生成式人工智能新指南
[摘要]：香港金融管理局（HKMA）发布了新的生成式人工智能指南，旨在加强治理和数据保护。随着银行在客户互动中广泛应用人工智能，HKMA 特别强调了人工智能决策的透明度和问责制。该指南还介绍了“GenAI Sandbox”计划，帮助银行在风险可控的环境中探索人工智能的创新应用。这一举措反映了香港在平衡金融创新与监管合规方面的积极努力。

Meta 推出新 AI 爬虫 Meta External Agent 收集训练数据
[摘要]：Meta 悄然推出了一款名为 Meta External Agent 的新网络爬虫，用于抓取互联网内容以收集 AI 训练数据。此爬虫首次由监控网络抓取活动的公司 Dark Visitors 发现，并通过互联网档案馆确认 Meta 在 7 月底更新了其开发者网站，披露了该爬虫的存在。尽管全球约 25% 的热门网站屏蔽了 OpenAI 的 GPTBot，但目前仅有 2% 的网站屏蔽了 Meta 的新爬虫，这表明其隐蔽性较高。

加州人工智能安全法案 SB 1047 通过重大修订
[摘要]：加州人工智能安全法案 SB 1047 在委员会上通过了多项重大修订，尽管仍旨在通过追究开发者责任来防止人工智能灾难，但对政府监管人工智能实验室的权力有所削减。修订后的法案要求开发商为可能造成超过 5 亿美元损失或人员伤亡的模型承担责任，但对开源微调模型的开发者提供保护，若开发成本低于 1000 万美元则免于责任。新成立的前沿模型委员会将负责设定计算阈值和发布安全指导。该法案正等待加州议会的最终表决，并将因修订内容再次提交参议院审议。

人工智能在地震预测领域取得突破性进展
[摘要]：德克萨斯大学的研究人员开发了一种人工智能系统，在中国的试验中能够以 70% 的准确率预测地震。该系统通过分析地震前兆数据，成功预测了多次地震的发生，显示出在减轻地震风险方面的巨大潜力。这一研究突破为未来的地震预警系统提供了新的希望，有望显著减少地震对人类生命和财产的威胁，并为全球地震防灾工作提供重要的技术支持。

OpenAI 与康泰纳仕合作，将高质量内容融入 ChatGPT，推动 AI 与媒体的深度融合
[摘要]：OpenAI 与知名出版商康泰纳仕（Condé Nast）达成协议，利用其内容来训练 AI 模型，包括 ChatGPT。通过此次合作，ChatGPT 将能够在回应中整合《Vogue》、《Wired》、《The New Yorker》等品牌的故事。这一交易不仅是 AI 公司与媒体巨头之间的重要合作，还引发了关于内容许可和 AI 在媒体行业中作用的广泛讨论。

谷歌前 CEO 埃里克·施密特在斯坦福大学演讲中揭露热门话题
[摘要]：谷歌前首席执行官埃里克·施密特在斯坦福大学的演讲中揭示了多个引人关注的议题，包括对谷歌失去人工智能优势的批评。他声称谷歌因重视工作与生活的平衡而在人工智能领域落后于初创公司。此外，施密特提出了打造“TikTok 杀手”的构想，甚至暗示人工智能应“窃取”用户和音乐，并由律师处理后果，尽管他澄清并非提倡真正的盗窃。施密特还强调，美国在人工智能时代的电力供应不足，建议与加拿大或其他国家合作解决。最后，他警告人工智能对民主的威胁比社交媒体更严重。