Browse By

No Thumbnail

微软 Azure OpenAI Service 加入 ChatGPT 俱乐部,3/13 开始计费

自从将 ChatGPT 技术整合至新版 GitHub Copilot、Bing 搜寻引擎和 Edge 浏览器後,微软 10 日宣布,Azure OpenAI 用户也可以存取预览版 ChatGPT 功能,企业可以藉此打造客制化的专属聊天机器人,以处理客户查询、提供对话摘要,并实现电子邮件自动化作业。 

近年来,微软一直高度热中生成式 AI,2019 年投资 OpenAI 10 亿美元後,在激烈 AI 竞赛拔得头筹,再接再厉 2020 年购买 GPT-3 底层技术独家授权,最近又投资 OpenAI 数 10 亿美元,成为 OpenAI 独家云端供应商。

微软宣布,即日起全面开放 Azure OpenAI 用户使用预览版 ChatGPT 功能,至於计费从 13 日开始,模式为每 …

No Thumbnail

Google 公布核弹级 AI API:通用语音模型(USM)

去年 11 月公布计划之後,Google 最近发表了他们自己的通用语音模型(USM)API 与研究成果,参数拥有 1200 万小时语音和 280 亿组训练、涵盖 300 多种语言,目前已经可以支援 100 多种语言自动辨识。从支援语种、资料库大小来看无疑是核弹级的模型(而且还在持续发展中,最终目标是支援 1000 种语言)。这里是 USM 的几个重点:

自我监督学习三部曲

目前自动语音识别(ASR)的最大挑战是传统监督学习方法缺乏可扩展性、费时费力,模型本身需要更高效的方式改进来扩大语种跟辨别品质。

Google 采取的方式「不断自我监督学习并微调」。详细做法是,第一步使用自我监督学习法 BEST-RQ,可以在无外部监督的情形下大量分析并学习语音资料(光这一步就是 80% 工作量);读者可以想像,这阶段完全是由机器自己监督、自己学习,完全不依赖人工。

Photo Credit: Google

第二步则是使用多目标监督预训练模型来整合来自其他资料的知识,主要是由 text injection、BEST-RQ 跟监督式 loss 函数共同训练。第三则是只让监督式 loss 函数介入,对终端任务进行微调。Google 表示第一、二阶段产出就非常好,乃至於第三阶只占了 5% 工作量,那能获得品质就非常好的整体模型

对,所以你看 YouTube

苹果专利为AR/VR交互提出虚拟人数字助手解决方案

(映维网Nweon 2023年02月22日)数字助手可以在人类用户和电子设备之间提供有益的界面,允许用户使用口语和/或文本形式的自然语言与设备或系统交互。但用户可能会提供不明确的请求或不明确地指代对象,特别是在计算机生成现实领域。因此,数字助手可能很难确定对请求的适当响应,除非解决了不明确的指代。

所以在名为「Digital assistant reference resolution」的专利申请中,苹果就提出了一种关於数字助手的指代解析。

图2描绘了用於完成对象确定过程的示例性数字助手200。如图所示,数字助手200包括指代检测器202、指代分类器204、文本指代解析模块206、基本视觉指代解析模块208、复杂视觉指代解析模型210和实体资料库212。指代分类器204、文本指代解析模块206、基本视觉指代解析模块208、复杂视觉指代解析模型210和实体资料库212被包括在单个指代解析模块214中。

图3和图4描绘了用於对象确定过程的示例图像输入。图3包括语音输入301、负鼠302和树303。图4包括语音输入401、绘画402和沙发403。图3和图4中的每一个都将与图2的各种组件以及可以由数字助手200接收的输入的各种示例一起讨论。

在一个实施例中,数字助手200接收口语输入201,并通过对口语输入201执行自动语音识别和/或自然语言处理来基於口语输入201确定多个用户意图。因此,数字助手200可以选择多个用户意图中的用户意图,并基於所选择的用户意图确定要执行的一个或多个任务。

在一个实施例中,数字助手200接收语音输入201并将语音输入201提供给指代检测器202。如图3所示,数字助手200可以接收语音输入301「那是什麽动物?」,并将语音输入301提供给指代检测器202进行处理。

口语输入201在口语输入301中包括诸如「那是什麽动物?」的请求。语音输入201除了请求之外同时包括音频。例如,口头输入201可以包括「嘿,看看那个,那是什麽动物是?」。

指代检测器202确定口头输入201是否包括请求。指代检测器202对口语输入201执行自动语音识别和/或自然语言处理,以确定口语输入201是否包括请求。另外,当口语输入201包括请求时,指代检测器202对口语输入201执行自动语音识别和/或自然语言处理,以确定口语输入201的请求。

在一个实施例中,确定语音输入201是否包括请求包括对语音输入201执行自动语音识别(ASR)。具体地,指代检测器202可以包括一个或多个ASR系统,其处理通过电子设备100的输入设备(例如麦克风)接收的语音输入201。ASR系统从语音输入中提取代表性特徵。例如,ASR系统预处理器对语音输入201执行傅里叶变换,以提取将语音输入表徵为代表性多维向量序列的频谱特徵。

另外,指代检测器202的每个ASR系统包括一个或多个语音识别模型,并实现一个或更多个语音识别引擎。语音识别模型的示例包括隐马尔可夫模型、高斯混合模型、深度神经网路模型、n元语言模型和其他统计模型。语音识别引擎的示例包括基於动态时间扭曲的引擎和基於加权有限状态变换器(WFST)的引擎。一个或多个语音识别模型和一个或更多个语音识别引擎用於处理前端语音预处理器的提取的代表性特徵,以产生中间识别结果,并最终产生文本识别结果。

在一个实施例中,确定口语输入201是否包括请求包括对口语输入201执行自然语言处理。特别地,一旦输入分析器202通过ASR产生包含文本串的识别结果,输入分析器就可以推断出口头输入201的意图。

指代检测器202产生语音输入的多个候选文本表示。每个候选文本表示是对应於口语输入201的单词或标记的序列。每个候选文本表示与语音识别置信分数相关联。基於语音识别置信度得分,指代检测器202对候选文本表示进行排序,并将n个最佳(例如,n个最高排序)候选文本表示提供给数字助手200的其他模块以供进一步处理。

确定口语输入201是否包括请求包括确定口语输入202是否包括歧义项。在一个示例中,歧义词是一个指示词。指示词指的是一个词或短语,它模糊地指代诸如对象、时间、人或地点之类的东西。示例性指示指代包括但不限於,this,here,there,then,these,them,he,she等,特别是当与诸如问题「这是什麽?」、「那在哪里?」和「他是谁?」之类的问题一起使用时。

因此,指代检测器202确定请求是否包括一个或类似的单词。例如,在口语输入301中,「那是什麽动物?」指代检测器202可以通过ASR和/或NLP确定「那」是指代含义 。类似地,在口语输入401中,「沙发上方的那个是什麽?」指代检测器202确定「那个」是指示指代。在这两个示例中,指代检测器202可以确定「那个」是模糊的,因为用户输入不包括可以用「那个」或「这个」来指代的主题或对象

在一个实施例中,数字助手200接收图像输入203。图像输入203包括多个对象,例如图像输入300包括负鼠302和树303。作为另一示例,图像输入400包括绘画402和沙发403。

在一个实施例中,图像输入203可以包括虚拟现实、增强现实或增强虚拟现实中的电子设备100的视图。因此,包括在图像输入203中的一个或多个对象可以是为图像输入203创建或添加到图像输入203的虚拟对象。

在接收图像输入203之前,数字助手200确定是否调用电子设备100的摄像头。数字助手200基於用户是否选择了物理按钮或显示的按钮来确定是否调用电子设备100的摄像头。数字助手200基於音频输入201确定是否调用摄像头。

除了接收图像输入203之外,数字助手200同时可以检测与语音输入201相关联的手势。在一个实施例中,数字助手200通过检测图像输入203中的手势来检测与语音输入201相关联的手势。例如,当图像输入203是电子设备100的视图时,图像输入203可以包括用户的手指向一个或多个对象,同时提供语音输入201。

在一个实施例中,数字助手200使用电子设备100的另一感测器检测与语音输入201相关联的手势。电子设备100的其他感测器可以是陀螺仪、加速计或检测电子设备100移动的其他感测器。因此,数字助手200在接收语音输入201的同时,基於在陀螺仪、加速计或其他感测器处接收的数据来检测与语音输入201相关联的手势。

当电子设备100是诸如头戴式显示器的可穿戴设备时,用户可以朝可穿戴设备的视图中的对象点头。因此,电子设备100的陀螺仪、加速计等检测指示点头的数据。数字助手200然後可以基於由陀螺仪或加速计检测到的数据来确定用户在哪个方向点头、他们点头的程度以及在用户点头的方向上图像输入203中存在哪些对象。

类似於上面讨论,数字助手200可以检测与语音输入201相关联的用户注视。例如,当电子设备100是诸如头戴式显示器的可穿戴设备时,电子设备100的视图同时是佩戴电子设备100用户的视图。因此,数字助手200可以将与语音输入201相关联的用户注视确定为与语音输入202一起接收的图像输入203。

数字助手200可以通过执行诸如边缘检测、边缘提取、图像分割、纹理分析、运动分析等图像处理技术来从图像输入203确定基本图像特徵。基本图像特徵包括但不限於图像中的对象、图像中的文本、用户注视、用户的手势以及在接收图像输入203和/或语音输入201时与电子设备相关联的情景数据。

例如,当数字助手200接收到图像输入300时,数字助手200可以确定复杂的图像特徵,包括负鼠302靠近树303、负鼠302在树303的右侧、负鼠303不在树303中、用户比负鼠302更靠近树303等。又如,数字助手200可以确定复杂的图像特徵,包括图片402在沙发403上方、沙发403靠墙、绘画402靠近沙发403等。

数字助手200向指代分类器204提供语音输入201和图像输入203,使得指代分类器204可以基於语音输入201的请求和图像输入204的请求从多个指代解析模块中选择指代解析模块。

如图2所示,多个指代解析模块包括文本指代解析模块206、基本视觉指代解析模块208和复杂视觉指代解析组件210。除了语音输入201和图像输入203之外,数字助手200同时向指代分类器204提供用户和数字助手200之间的基本图像特徵、复杂图像特徵和历史交互数据。

指代分类器204通过确定哪个指代解析模块将能够完成对象确定过程,从文本指代解析模块206、基本视觉指代解析模块208和复杂视觉指代解析组件210中进行选择。文本指代解析模块206、基本视觉指代解析模块208和复杂视觉指代解析模型210中的每一个都可以通过检查不同的输入和因素来完成对象确定过程,以确定用户正在用语音输入201指代图像输入203的哪个对象。

因此,指代分类器204通过确定当前输入集合中存在哪些输入和/或因素,从而确定三个指代解析模块中的哪一个最有可能完成对象确定过程,并选择三个指代分辨模块中的一个或多个。在一个实施例中,指代分类器204对文本指代解析模块206、基本视觉指代解析模块208或复杂视觉指代解析模型210的选择基於由指代分类器204确定的多个置信度分数。

指代分类器204可以基於语音输入201、图像输入203、历史交互数据、基本图像特徵和/或复杂图像特徵来确定置信度分数。例如,指代分类器204可以将某些权重或值分配给在口语输入201中出现或不出现的单词。类似地,指代分类器204可以基於出现在图像输入203中的某些基本或复杂图像特徵以及语音输入201是否指代一个或多个基本或复杂的图像特徵来分配权重。

因此,指代分类器204可以基於分配给这些因素中的每一个的一个或多个权重来计算置信度分数,以及复杂视觉指代解析模块210与多个置信度分数中的不同置信度分数相关联。

与文本指代解析模块206相关联的置信度分数是可以基於口头输入201和历史交互数据来完成对象确定过程的可能性。例如,当用户提供包括请求「它们吃什麽?」的口头输入,并且数字助手200接收到不包括任何对象或图像特徵的图像输入时,指代分类器204可以确定用户打算指代与数字助手200的过去交互。

因此,指代分类器204可以基於「它们吃什麽?」的当前口语输入和存储在实体资料库212中的关系/历史交互来确定对象确定过程是否可能完成。因此,指代分类器204可以基於口头输入201和历史交互数据以及因此与文本指代解析模块206相关联的高置信度来计算对象确定过程可以完成的高可能性。

与基本视觉指代解析模块208相关联的置信度分数是可以至少基於语音输入201和由数字助手200确定的基本图像特徵来完成对象确定过程的可能性。例如,当用户提供语音输入301「那是什麽动物?」,并且数字助手200接收图像输入300时,数字助手200可以确定图像输入300的基本图像特徵包括负鼠302和树303。

所以,指代分类器204可以进行确定,因为在输入中提供了单词「动物」,并且存在作为图像输入300中包括的动物的对象(例如负鼠302),所以很可能可以基於语音输入和基本图像特徵来完成对象确定过程。

因此,指代分类器204可以基於语音输入201和图像输入300以及因此与基本视觉指代解析模块208相关联的高置信度来计算可以完成对象确定过程的高可能性。

除了语音输入201和基本图像特徵之外,与基本视觉指代解析模块208相关联的置信度分数同时可以考虑是否能够基於历史交互数据来完成对象确定过程。例如,当用户提供语音输入「那一个呢?」时,数字助手200可以接收包括浣熊的基本图像特徵的图像输入。指代分类器204然後可以基於输入「那一个」确定用户正在指代与数字助手200的先前对话。…

No Thumbnail

Google 研发两款 5 奈米伺服器处理器,预计 2024 年交台积电生产

外媒引用知情人士消息,Google 研发资料中心处理器取得进展,代表可能 2025 年开始使用新处理器,是积极寻找击败对手亚马逊云端服务(AWS)的关键。新处理器预定由台积电生产。台积电照例没有回覆。

The Information 报导,Google 伺服器处理器团队正在开发两款采 ARM 架构的 5 奈米处理器。代号 Maple 采迈威尔 (Marvell Technology Group) 现成设计,刚完成设计交由台积电试产。另一款代号 Cypress 由以色列团队开发设计。

Google 客制化伺服器处理器将在 2024 下半年量产,最早 2025 年部署自家资料中心。Google 也与微软竞争人工智慧 (AI) 应用,将来新处理器加入後,能为 Google 人工智慧应用增力。

Google 斥资数十亿美元研发人工智慧和收购公司後,却被微软最近投资的人工智慧公司 OpenAI 抢走风头。OpenAI 新人工智慧工具 ChatGPT 最近爆红,公布不到一周就超过 100 万用户;两个月後月活跃用户达 …

NASA对重新设计的RS-25月球火箭发动机进行了测试

美国宇航局为太空发射系统(SLS)火箭的未来飞行新近重新设计的RS-25发动机,於2月8日在该机构位於密西西比州圣路易斯湾附近的斯坦尼斯航天中心进行了今年的首次热火测试。

这一系列的测试支持了SLS发动机主要承包商Aerojet Rocketdyne公司的新RS-25发动机的生产。新发动机将有助於为未来的阿特米斯任务提供动力,预计从Artemis V任务开始。

2023年2月8日,美国宇航局在密西西比州南部的斯坦尼斯航天中心的弗雷德-海斯试验台上进行RS-25热火试验。资料来源:美国宇航局/斯坦尼斯

在弗雷德-海斯试验台上的单引擎热火是在2022年的信心测试之後进行的,它证实了所有的准备工作都可以进行认证。

在最新的测试中,工程师们对RS-25发动机进行了大约8分半钟(500秒)的全推力点火,与发动机必须运行的时间相同,以帮助SLS进入太空。在测试的大部分时间里,RS-25发动机还以111%的功率运行,与帮助SLS升空所需的水平相同。这次测试采用了一系列新的组件,其中大部分是为12月的热火测试安装的。还有一个部件–一个新的喷嘴是在最近一次热火试验之前安装的。

2023年2月8日,在密西西比州南部的斯坦尼斯航天中心的弗雷德-海斯试验台上,一台远程摄像机提供了RS-25热火的特写视图。资料来源:美国宇航局/斯坦尼斯

四台RS-25发动机同时点火,在发射时产生160万磅的推力,在上升过程中产生200万磅的推力,为每次SLS飞行提供动力。美国宇航局和Aerojet Rocketdyne公司对太空梭计划中剩余的16台发动机进行了改装,这些发动机在斯坦尼斯被证明可以用於Artemis任务I至IV。

每台帮助SLS飞行的RS-25发动机都将在NASA斯坦尼斯进行测试。RS-25的测试是由NASA、Aerojet Rocketdyne和Syncom Space Services公司的联合团队进行。Syncom空间服务公司是斯坦尼斯设施和运营的主要承包商。

通过Artemis任务,美国宇航局将让第一位女性和第一位有色人种登陆月球表面,为长期的月球存在铺平道路,并作为通往火星的垫脚石。

喜欢这篇文章吗?立刻分享出去让更多人知道吧!

本站内容充实丰富,博大精深,小编精选每日热门资讯,随时更新,点击「抢先收到最新资讯」浏览吧!

请您继续阅读更多来自 cnBeta 的精彩文章:

※为什麽免疫疗法不能对所有乳腺癌起作用?
※研究:最常见的抗生素药物可能对儿童造成永久性的副作用…

No Thumbnail

Bill Gates 说 ChatGPT 可以教数学,也可做医疗顾问

Bill Gates 说 ChatGPT 可以教数学,也可做医疗顾问,07/02/2023, Advance Iverson,135,,

Microsoft 联合创始人Bill Gates声称,他对人工智能聊天机械人 ChatGPT 以及过去一年在人工智能领域取得的诸多成就感到非常兴奋。 他还针对 ChatGPT 的潜在用途提出了三个建议:作为数学导师,作为一些缺乏医疗条件的非洲人的医疗顾问,以及像莎士比亚一样写诗。

Bill Gates表示,这种类型的人工智能可以充当数学导师,帮助学生加强学习。 他们还可以担任医疗顾问,为一些经常一辈子不看医生的非洲人提供医疗建议。 目前,没有足够的白领从事这种“有价值的职业”,而人工智能可以帮助满足这些需求。

除了上述两种用途外, Bill Gates还提到了他最喜欢用 ChatGPT 做的“有趣的事情”,包括与朋友一起写诗,尽管他尝试 ChatGPT 的主要原因是“为了更严肃的目的”。 “事实上,你可以告诉 ChatGPT ‘像莎士比亚一样写诗’,它确实做到了,AI 具有创造力真的很有趣,” Bill Gates说,并补充说,在他读完 ChatGPT 写的诗後,他承认他不能自己写。

尽管 Bill Gates在 2020 年离开了 Microsoft …

No Thumbnail

苹果将停售 iMac Pro

如果你有在考虑购入一台 iMac Pro 的话,现在下手的最後机会了。据 9to5Mac 报导(苹果也有向 Engadget 证实),苹果即将停售 iMac Pro,基本上现有的货卖光之後就没了。就当下而言,台湾和香港的苹果网路商店都还能购买,但送达要两到三周的时间,并且标识着「数量有限,先买先赢」。贩售的仅为 10 核 Xeon W 搭配 32GB 记忆体、1TB SSD、及 Radeon Vega 56 的版本,似乎也没有什麽客制化的选项。

苹果表示,大部份 iMac Pro 的用户应该都可以由高阶版的 iMac 所满足,iMac 如果不够的话,买家可以考虑 Mac Pro 塔式主机。本来 iMac Pro 就是在 2017 年底,Mac Pro 还没上市时,推出来做为暂代方案的产品,在产品周期中除了将 8 …

No Thumbnail

【整理】日本银行代码列表:包括日本银行、东京三菱银行等等

【整理】日本银行代码列表:包括日本银行、东京三菱银行等等,28/01/2023, 十斗,126681,,

网上交易虽然方便,但有时候部份相对较旧的转帐手续需要使用银行代码,即所谓的 SWIFT CODE 系统。这些银行编号本来叫 Bank Identifier Code,但考虑到使用与多种原因,最後还是叫 SWIFT CODE。

SWIFT 全名为:Society for Worldwide Interbank Financial Telecommunications,是环球银行间金融通信协会是一个由金融机构共同拥有的私营股份公司,按比利时的法律登记注册,由会员银行和其他金融机构协同管理。未来如果 BLOCKCHAIN 成真,於银行广泛使用,那麽被取代的大概就是 SWIFT CODE 了。

0000  日本银行
0001  みずほ银行(ミズホ)
0005  东京三菱银行(トウキョウミツビシ)
0008  UFJ银行(ユーエフジェイ)
0009  三井住友银行(ミツイスミトモ)
0010  りそな银行(リソナ)
0016  みずほコーポレート银行(ミズホコーポレート)
0017  埼玉りそな银行(サイタマリソナ)

ネット银行など(0033~)…

No Thumbnail

【SBS VPN】在台湾也能观看 SBS 直播《2023》

SBS,为韩国四大无线电视即电台网路之一,且是之中唯一一家的民营企业,自从 1990 年营运至今

SBS 所推出的节目相当多,大部分的戏剧都可以直接观看,如果想要体验更完整的内容,当然还是要付月费才可观看

不过在之中 SBS 有它们专门推出的直播 SBS Live (SBS 라이브),这些直播仅限定在南韩地区播放,会限制南韩以外的地区播放

那麽应该要怎麽办呢?不用担心,下面我们就来教你如何破解 SBS Live 的地区限制


目录


解除 SBS Live 地区限制教学

在尚未连接 VPN 跨区到南韩时,打开 SBS 直播「 SBS 라이브 」,我们的画面就会遇到上图的状况

要解除 SBS Live 的地区限制,我们必须要准备一款 VPN 作为跨区使用,以下我们使用的是 SurfShark 来进行示范

先退出 SBS 的页面,再打开 …

No Thumbnail

【开箱评测】Surface Pro9 13寸轻薄触控笔电

小编要来介绍Microsoft推出的 Surface Pro 9,这次主要以外形、手感、萤幕、操作体验来开箱评测,用我个人感受来跟大家分享。

▲有四个颜色白金、石墨、宝石蓝、森林绿,小编这次拿的是宝石蓝,机身是金属设计,整体很有质感。

▲在机背下方设有机架。

在家外出都好用! Jabra Evolve 2 Buds蓝牙真无线耳机 开箱 Jabra推出专为提升工作专注度与协作力所设的高阶款产品Jabra Evolve2 Buds,配备可调节式的主动降噪技术,有效降低失真展现优异动人的音色,除此之外还拥有Microsoft Teams和Zoom等线上会议平台的认证,不过实际使用效果如何呢?马上来帮大家开箱一下Jabra Evolve2 Buds真无线耳机。

▲支架十分紮实,能用不同角度摆放机身,也能放直的。

▲机身本身重量不重满轻巧的,能一手掌握不会太大。装上键盘保护盖,也不会加重多少,外出携带轻松。

▲而机顶就设有开关键及音量键。

▲至於镜头部分,机背相机支援拍摄 1,000万像素相片及最高 4K解像度影片,而前方的镜头就支援进行 1080p全高清视讯会议,亦支援 Windows Hello脸部验证功能。

▲采用了 13寸 PixelSense Flow触控萤幕,解析度为 2880 x 1920,采用适合文书工作的 3:2萤幕比,更新率最高为 120Hz,而且原生支援 Dolby Vision IQ,不但支援播放 Dolby …