日前,《时代》周刊发布了2023年度最佳发明的榜单,这一榜单旨在介绍最具影响力的新产品和理念,由《时代》周刊全球的编辑和记者提名,根据创新性、效率、影响力等因素筛选出200个突破性发明。《时代》周刊的评论表示,这一些产品改变了我们的生活、工作、娱乐,并且挑战“可能”这一概念的极限。
二十多年来,《时代》杂志的编辑们年年都会在最佳发明专刊中评选出最具影响力的新产品和新创意。今年,榜单由世界各地《时代》杂志编辑和记者的提名,关切人工智能、绿色能源和可持续发展等新兴领域。
Adobe在5月宣布将AI图像生成器Firefly整合至Photoshop(beta版)应用,推出生成填色(Generative Fill)功能,为Photoshop的使用者释放全新的创作潜能,使他们可以运用简易的英文文字指令,以非破坏性的方式来新增、扩展或是移除影像内容。使用者通过这一种快速且具直觉性的方式拓展镜头外的影像世界,此项令人振奋的新功能推出至今,已创造超过9亿张让人叹为观止的影像。
继生成填色之后,Adobe又宣布推出全新生成式人工智能功能—生成式扩展(Generative Expand)功能。它与生成填色不同之处在于,以往使用生成填色要扩展影像内容时,需透过裁切工具和矩形选取画面工具二个步骤才能完成,而新的生成式扩展则有效简化了步骤,只需要用裁切工具就能完成图像扩展,轻松延伸影像尺寸和镜头外的内容,让影像完美呈现符合用户所期待的效果。
GPT-4是一个多模态大模型(接受图像和文本输入,生成文本)。相比上一代的GPT-3,GPT-4可以更准确地解决难题,具有更广泛的常识和解决实际问题的能力:更具创造性和协作性;可处理超过25000个单词的文本,允许长文内容创建、扩展对话以及文档搜索和分析等用例。
此外,GPT-4的高级推理能力超越了ChatGPT。在SAT等绝大多数专业测试和相关学术基准评测中,GPT-4的分数高于ChatGPT。
OpenAI花了6个月时间使GPT-4更安全、更具一致性。在内部评估中,与GPT-3.5相比,GPT-4对不允许内容做出回应的可能性降低82%,给出事实性回应的可能性高40%。GPT-4引入了更多人类反馈数据来进行训练,不断吸取现实世界使用的经验教训进行改进。
“GPT-4是世界第一款高体验,强能力的先进AI系统,我们大家都希望很快把它推向所有人。”OpenAI工程师在介绍视频里说。
今年6月,谷歌支持的人工智能初创公司Runway(帮助开发了AI图像生成器StableDiffusion)发布了Gen-2,这是一款根据文本提示或现有图像生成视频的模型。(Gen-2之前只在有限的等候名单中使用。)
和很多文生图类应用不同,Runway的Gen-1、Gen-2挑战的是一项更有难度的事情——视频编辑和生成。
Runway公司在2月首次推出了其Gen-1模型,该模型仅使用文本提示即可以修改视频的艺术风格,例如将现实中的实拍镜头转换为卡通剪纸世界。而Gen-2更进一步,可以直接用单个文本提示生成视频场景,比如提示词为“山脉的航拍无人机镜头”,就可以生成逼真的航拍画面,但开源的模型输出的视频分辨率目前还较低,还需要稍待进一步发展。
此外,该模型可以从图像和文本描述的组合生成短视频序列。目前Runway公司正在向测试人员提供Gen-2模型。Gen-2已经上线了苹果AppStore,也同时有Web版本,可以在浏览器中使用。
FeaturePrint号称能够最终靠用手机拍摄一张物品的照片,识别出物品是否为赝品。并且支持任何物品识别,从齿轮和电路板到手表和收藏品。
这款应用由Alitheon公司开发,利用人工智能技术,将物品表面的细节转化为独一无二的数学特征。Alitheon公司称,由于即使是同一生产线出来的物品也不会完全相同,所以FeaturePrint可以轻松区分真品和假货。这款应用不需要用条形码、二维码、射频识别等标识物品的方式,而是直接让物品成为自己的身份证。
Dedrone 的全城无人机探测产品可在一个地理区域周围投掷一个虚拟防护罩,在无人机进入指定空域的几秒钟内向执法部门发出警告。
Dedrone 跟踪无人机发出的专有混合信号,包括无线电频率、ADS-B 数据(也用于飞机)和 RemoteID 信标,以确定入侵位置。
该系统可以在数秒内检测进入禁飞区的无人机,对保护重要基础设施具备极其重大作用。它被称为无人机的“空中交通管制系统”。
今年8月,科技巨头Meta在官网宣布,开源多语音、语言,翻译、转录大模型SeamlessM4T。
据Meta介绍,SeamlessM4T是首个一体化AI翻译大模型,支持100种语音、语言翻译,可执行语音到文本、语音到语音、文本到语音和文本到文本的多模式翻译任务。例如,将一段英文语音,自动翻译成地方中文语音(如闽南话)。
此外,SeamlessM4T集成了Meta之前发布的NLLB、MMS等翻译模型,并使用了270,000小时的语音和文本对齐数据。所以,这也是目前顶级规模、功能最全的开源翻译模型。
SO-VITS-SVC是源于2021年6月11日发布的“VITS”的开源项目。“VITS”是一种语音合成模型,能轻松实现“文生音”的效果。但“VITS”模型需要海量的训练数据(数千至上万条5-10秒左右的音频),并高度依赖于人们对语料数据的文本标记,应用门槛很高。
2022年8月26日,一位名为“Rcell”的B站用户在“VITS”的基础上,结合了Soft-vc(内容编码器,用来提取音频语音特征)、VIsinger(端到端的歌声合成系统,用来简化歌声合成系统的训练流程)等,开发出了“SO-VITS-SVC”模型。“SO-VITS-SVC”能够理解是一个音色转换的AI模型,仅需十几分钟的音频数据,便可以拟合成具备特定主体音色的工具。
在野火蔓延之前对其进行仔细的检测是目前困扰世界许多地区的一项挑战。加州大学圣迭戈分校的公共安全项目 AlertCalifornia 正在利用人工智能提供帮助。该项目与加州消防局(Cal Fire)合作,训练人工智能从遍布全州森林的 1050 多个摄像头网络中检测烟雾和其他早期火灾迹象。
“Alert California AI”技术网站称,他们使用从飞机和无人机上进行的激光雷达(LiDAR)扫描,生成“关于扫描表面的三维信息”。结合了树种的物理特征,来了解加州森林生物量和碳含量。Cal Fire 说,机器学习(ML)模型利用摄像头的 PB 级(1PB=1000TB)数据来区分烟雾和其他空气颗粒。
在最初的两个月里,该系统在接到任何报警电线 起火灾。AlertCalifornia 的联合首席调查员 Falco Kuester 说:“这个(系统)最大的成功案例就是那些你从未听说过的火灾。”
StableAudio简化了用户生产音频的模式,用户只要输入关键词,通常包含乐器名称、风格、情境、甚至节拍数,就可以一键生成音频。该工具采用“潜在扩散模型”,它能按照每个用户输入的文本生成丰富多彩、高质量的音频,范围涵盖了音乐、对话、环境音和特效声等。
为了训练这款模型,Stability与音乐提供商AudioSparx合作,在超过800000个音频文件的数据集上进行了训练,这中间还包括音乐、音效和单乐器主干,及相应的文本元数据。在将19500小时的音频输入模型后,StableAudio知道怎么模仿它在命令中“听”到的某些声音描述。经过大量的训练的StableAudio,让用户通过文本提示就能直接生成摇滚、爵士、电子、嘻哈、重金属、民谣、流行、朋克、乡村等20多种类型背景音乐。
在印度和非洲的部分地区,偷猎仍然是大象和大型猫科动物灭绝的最大威胁,即使在保护区内也是如此。美国环保组织Resolve创建的人工智能踪迹保护系统(TrailGuardAI)利用英特尔(Intel)技术驱动的头来监控濒危物种和发现偷猎者。该系统利用手机或远距离无线秒内就能将图像传送到当局的手机上。
TrailGuard AI通过高级人工智能检测和识别入侵者,允许系统向指定方发送图像警报。利用ELERA(Inmarsat超可靠的全球移动卫星通信网络),这种至关重要的视觉信息还可以在最偏远的地区传输。
通过充当 “地面上的眼睛”,TrailGuard AI使执法人员和公园管理员可以有明显效果地地监测威胁,并在近乎实时的情况下作出更有效的反应。它的图像警报系统能够感知到威胁的态势,提高了工作人员和当地社区在野生动物保护方面的安全。
DALL·E-3是OpenAI在今年9月21日最新推出的文生图模型,在语义理解、颗粒处理、图像质量等方面,比2022年3月25日发布的DALL·E-2实现巨大提升。DALL·E-3可生成写实、二次元、平面、创意、朋克、3D等多种类型,图片质量可媲美Midjourney,文本提示理解甚至超过了它。
除了炸裂的生图效果之外,DALL·E 3 的最大特点是与 ChatGPT 的集成,它原生构建在 ChatGPT 之上,用 ChatGPT 来创建、拓展和优化 prompt。这样一来,用户无需在 prompt 上花费太多时间。
具体来讲,利用 ChatGPT,用户不必绞尽脑汁地想出详细的 prompt 来引导 DALL·E 3 了。当输入一个想法时,ChatGPT 会自动为 DALL·E 3 生成量身定制的、详细的 prompt。同时用户也能够正常的使用自己的 prompt。
古腾堡计划开放式有声读物集是由微软,谷歌和古腾堡计划共同发起,有望将古腾堡计划包含的接近6万本电子书库,利用AI文本转语音技术,全部转化为有声读物。古腾堡计划是全球最大的开源电子书库,目前书库中包含超过70000本已确定进入共有领域的电子书。
在这个项目中,研究人员结合了机器学习、自动文本选择(哪些文本可以大声朗读,哪些不可以)和自然语音合成系统的突破。
首先,研究人员开发了一种算法,能够理解基于HTML的电子书的结构,并区分主要文本和不重要的元素,如脚注、页码或表格。
这个解析之后,是文本到语音的实际转换(文本到语音,TTS)的过程。在这一个项目中,使用了谷歌的WaveNet, 英伟达的Tacotron和微软的FastSpeech,来产生自然的和人类相似的语音输出。
此外,为了研究团队开发了一个能够区分叙述者和对话的系统,还可以区分单个角色和情绪,并相应地调整生成的声音。
当最伟大的摇滚乐队之一最近达成协议,在广告中使用其 1970 年代的热门歌曲时,其成员欣喜若狂。但有一个问题:广告制作人只想要乐器,而乐队拥有的只是最终的混音。因此,摇滚乐队的团队联系了 AudioShake,该公司的人工智能程序能隔离预先录制的音频元素,将其分解为各个组成部分。
据悉,该服务能够最终靠AI识别,将一首录制完成的歌曲解构为器乐、人声、贝斯、吉他、鼓等多个部分,然后将其单独提取出来,用于其他新用途,例如混音、采样、同步许可、母带重制等。
Humane Ai Pin是一款具有投影显示和AI驱动功能的可穿戴设备。据悉,Ai Pin是一款“智能且连接的可穿戴设备,可以附着在衣物上,并利用各种传感器进行环境和情境计算交互。”它是一款独立设备,其软件平台利用AI的力量提供创新的个人计算体验。
从本质上讲,Ai Pin旨在执行许多智能手机的功能,但几乎不需要手势和语音命令。只需轻轻一点,这款设计精巧的设备(设计为夹在胸口口袋上)就可以概述电子邮件和日历邀请,提供语言之间的翻译,并处理电话通话。
Ai Pin配备了摄像头和计算机视觉软件,可以识别其周围的物体,包括食品营养标签。此外,其内置的投影仪和深度传感器使其能够将交互式界面投影到附近的表面,例如手掌或桌面。
上一篇:Tp钱包app下载 Tokenpocket钱包 app v186 官方安卓版·tp安卓版正版安装(小狐狸破解版)【触摸屏与OLED网】
下一篇:支架输送系统流量测试仪
热线电话: 400-112-7888
电话: 0576-84010599
传真: 0576-84010992
邮箱:zcd@zc-mould.com