xSky 实验室关注高性能计算,分布式系统/存储,大数据/机器学习/WebRTC
目录
  • 首页
  • 技术相关
  • 原创作品
  • 人工智能/机器学习
  • 系统与架构
  • 数据库/数据分析
  • 分布式系统/存储
  • 服务端开发
  • WEBRTC研究
  • 开发调试
  • 网络与安全
  • 常用工具
  • 杂七杂八

语音识别的一些开源项目整理

2022-08-27 16:10:19
1、语音识别主流工具包

(0)
   openai/whisper

 

(1)ESPNET

推荐指数:★★★★★

star数量:4.4k

工具特点:支持多个语音任务,支持多个ASR端到端系统,当前最活跃的语音开源社区,是第三代端到端ASR系统的典型代表。

链接:https://github.com/espnet/espnet

(2)kaldi

推荐指数:★★★★☆

start数量:11k

工具特点:基于C++开发,工具丰富,2012-2018年最活跃的开源社区,是第二代神经网络ASR系统的典型代表。

链接:https://github.com/kaldi-asr/kaldi

(3)wenet

推荐指数:★★★★☆

start数量:1.5k

工具特点:基于pytorch,代码较为简洁,并有多个平台的runtime支持。

链接:https://github.com/wenet-e2e/wenet

(4)speechbrain

推荐指数:★★★★☆

star数量:3.3k

工具特点:该工具纯python化,易用性的设计较好。

链接:https://github.com/speechbrain/speechbrain

(5)ASRT

推荐指数:★★★★☆

star数量:4.9k

工具特点:端到端训练。

链接:https://github.com/nl8590687/ASRT_SpeechRecognition

(6)openasr

推荐指数:★★☆☆☆

start数量:100-

链接:https://github.com/by2101/OpenASR

(7)openspeech

推荐指数:★★☆☆☆

star数量:300+

链接:https://github.com/openspeech-team/openspeech

(8)lingvo

推荐指数: ★★★☆☆

star数量:2.3k

工具特点:是google基于tensorflow开发的神经网络工具包,包含了asr在内的多个任务。

链接:https://github.com/tensorflow/lingvo

(9)fairseq

推荐指数: ★★★☆☆

start数量:14.4k

工具特点:是meta基于pytorch开发的序列到序列建模的工具,包含了ASR在内的多个任务。

链接:https://github.com/pytorch/fairseq

(10)athena

star数量:700+

工具特点:端到端语音处理工具包,同样包含asr在内的多个任务。

链接:https://github.com/athena-team/athena

(11)deepspeechstar

star数量:18.5k

链接:https://github.com/mozilla/DeepSpeech

(12)wav2letter

star数量:5.9k

链接:https://github.com/flashlight/wav2letter

(13)CAT

star数量:100+

工具特点:基于CTC-CRF的ASR系统

链接:https://github.com/thu-spmi/CAT

(14)torchaudio

star数量:1.5k

工具特点:pytorch的audio库

链接:https://github.com/pytorch/audio

(15)htk

推荐指数:★★☆☆☆

工具特点:基于C开发,是第一代HMM的ASR系统的典型代表。

链接:https://htk.eng.cam.ac.uk/2、其他工具包

2、其他功能型工具包/库

(1)kaldiio

链接:https://github.com/nttcslab-sp/kaldiio

(2)librosa

链接:https://github.com/librosa/librosa

(3)warp-ctc

链接:https://github.com/baidu-research/warp-ctc

(4)warp-transducer

链接:https://github.com/HawkAaron/warp-transducer

(5)k2

链接:https://github.com/k2-fsa/k2

(6)sctk

链接:GitHub - usnistgov/SCTK

GitHub - nl8590687/ASRT_SpeechRecognition: A Deep-Learning-Based Chinese Speech Recognition System 基于深度学习的中文语音识别系统

 

By:xSky | 人工智能/机器学习 |

  • 分类目录

    • 技术相关 (34)
    • 原创作品 (13)
    • 人工智能/机器学习 (6)
    • 系统与架构 (9)
    • 数据库/数据分析 (11)
    • 分布式系统/存储 (4)
    • 服务端开发 (7)
    • WEBRTC研究 (7)
    • 开发调试 (7)
    • 网络与安全 (9)
    • 常用工具 (9)
    • 杂七杂八 (6)
  • 最新文章

    • WSL从C盘迁移到其他盘区
    • 赵何娟:中国AI追随之路的五大误区,我们至少落后十年
    • zap  发送日志到 websocket
    • QUIC(隐藏的)超能力
    • MYSQL 生成日期/时间序列总结
    • Linux bash终端设置代理(proxy)访问
    • centos 下 yum安装python3
    • 使用SQL查询Milvus 向量数据库
    • 浅谈 MySQL 新的身份验证插件 caching_sha2_password
    • Milvus v2.2.1 开源向量搜索引擎使用教程
    • 部署了一个SRS的demo
    • Dockerfile 详解
    • Docker常用命令
    • Tus文件上传协议
    • 编译运行Milvus
    • MinIO 快速入门
    • ESP32
    • Prometheus监控报警系统搭建
    • go语言JSON字典模拟
    • go语言的sql解析器
    • Grafana配置数据源,自定义查询语法
    • TDengine + Telegraf + Grafana
    • gRPC-Gateway 返回JSON数据int64类型被转为string类型问题
    • LLAMA模型试玩
    • 语音识别的一些开源项目整理
    • 使用MYSQL8进行统计分析
    • 记录FFmpeg抽帧、合流、转码、加水印等操作
    • 移动网络弱网处理研究
    • 翻译:使用 Semgrep 进行热点代码评审
    • 共享内存并发路线图
  • 链接

    • xSky的Blog
    • 我的Github
    • 实时监控图表
    • 预印本
    • xRedis 在线文档
    • xSkyProxy
    • xChart 数据在线测试
    • 我的电子书
    • xChart 数据可视化系统
    • 树莓派技术圈
    • WebRTC开发者社区
  • 开源项目

    • xReis C++的redis客户端库
    • xBlog-C++ 博客程序
    • xSkyProxy-新型MySQL代理网关
    • 数据可视化平台- xChart
    • xhttpcache 高速数据缓存服务
    • xMonitor-图形监测工具
    • 网址收集

Powered By xBlog

Copyright 2010~2024 0xsky.com All Rights Reserved.