AI语音AI开放服务/开源项目AI文本转语音

Hume AI

Hume 的 EVI 是一个由我们的同理心大语言模型 (eLLM) 提供支持的 API,它可以理解和模拟语气、单词强调等,以优化人类与人工智能的交互。

标签:

综合介绍

Hume AI是一个提供情感识别API的公司,专注于开发可以解读和生成情绪反应的技术。其表情测量API能够解释音频、视频和图像中的表情细微差别,并有自定义模型API用于预测人类幸福感。Hume AI通过深入研究基础模型及其与人类幸福感的对齐,推进了人工智能领域的科技发展。

 

Hume AI

 

 

功能列表

表情测量API:理解音频、视频和图像中的情感表达
自定义模型API:建立可定制的应用程序洞察
多年研究成果:基础模型与情感表达相结合
提供大语言模型的创造力评估

 

 

使用帮助

了解API如何捕捉声音和面部表情的细微差别
探索如何在自己的应用中整合Hume AI的定制模型
阅读他们的科研成果,理解情感智能的科学基础

 

 

Empathic Voice Interface (EVI)

 

Hume的情感智能语音界面(EVI)是全球首个具备情感智能的语音人工智能。它能接收现场音频输入,返回由声调表达度数据增强的音频和文字转录。通过分析音调、节奏和音色,EVI解锁了更多新增功能,例如在合适的时机进行发声,以及以适合的语调来产生富有共情的语言。这些特性让基于语音的人机互动更加顺畅、满意,同时为个人AI、客户服务、易用性、机器人学、沉浸式游戏、VR体验等新领域开启了新可能。

 

我们提供了一整套工具,方便你在应用程序中集成和定制EVI,包括处理音频和文字传输的WebSocket API、REST API,以及简化在Web和Python基础项目上集成的Typescript和Python的SDK。除此之外,我们还提供了开源案例和网络部件,作为开发人员在自己的项目中探索和实现EVI能力的实际起点。

 

使用EVI构建

使用EVI的主要方式是通过WebSocket连接,此连接可发送音频并实时接收反馈。这样就可以实现流畅的双向对话:用户发表意见,EVI倾听并分析他们的表达,然后EVI生成具有情感智能的反馈。

 

你可以通过连接到WebSocket并将用户的语音输入传到EVI上来开启对话。你也可以向EVI发送文本,然后它会将文本读出。

 

EVI将以以下方式进行回应:

  • 给出EVI的文字回复
  • 提供EVI的富有表情的音频反馈
  • 提供用户消息的转录和其声音表情的测量数据
  • 如果用户中断了EVI,会给出对此的反馈
  • 当EVI回复完毕,会给出提示消息
  • 如果出现问题,会给出错误消息

相关导航