最專業的語音辨識全書：使用深度學習實作 | 維持健康的好方法 - 2024年11月

最專業的語音辨識全書：使用深度學習實作

作者：柳若邊

出版社：深智數位

出版日期：2019年06月27日

ISBN：9789869772679

語言：繁體中文

售價：476元

書籍連結

　　語音辨識已經逐漸進入人們的日常生活，語音辨識技術是涉及語言、電腦、數學等領域的交叉學科。

　　全書從語音辨識的基礎講起，並輔以翔實的案例，介紹包括C#、Perl、Python、Java等多種程式設計語言實作，開放程式碼語音辨識工具套件Kaldi的使用與程式碼分析，深度學習的開發環境搭建，旋積神經網路，以及語音辨識中常見的語言模型--N元模型和依存模型等，讓讀者快速瞭解語音辨識基礎，掌握開發語音辨識程式的演算法。

　　本書主要內容：
　　語音辨識技術
　　■ C# 開發語音辨識
　　■ Perl 開發語音辨識
　　■ Python 開發語音辨識
　　■ Java 開發語音辨識　　
　　■ 語音訊號處理　　
　　■ 深度學習
　　■ 語言模型

　　適合讀者群：需要具體實現語音辨識的程式設計師，或有一定機器學習或語音辨識基礎的從業者、學生、研究者閱讀參考。

本書特色

　　◎ 引領語音辨識技術升級
　　◎ 業界流行的Kaldi語音辨識技術實作

作者簡介

柳若邊

　　獵兔搜索團隊核心成員，曾任職中國萬網、三星等業界知名公司，現為教育培訓機構專業講師。獵兔搜索專注於自然語言處理等人工智慧領域的技術開發與實現。在北京和上海等地均有獵兔培訓的學員，出版的相關技術圖書讀者遍及全球華人圈。

| 01 | 語音辨識技術
1.1 整體結構
1.2 Linux 基礎
1.3 安裝Micro 編輯器
1.4 安裝Kaldi
1.5 yesno 實例
1.6 建置一個簡單的ASR
1.7 Voxforge實例
1.8 資料準備
1.9 加權有限狀態轉換
1.10 語音辨識語料庫
1.11 Linux shell指令稿基礎

| 02 | C# 開發語音辨識
2.1 準備開發環境
2.2 計算旋積
2.3 記錄語音
2.4 讀取語音訊號
2.5 離散傅立葉轉換
2.6 移除靜音

| 03 | Perl 開發語音辨識
3.1 變數
3.2 多維陣列
3.3 常數
3.4 運算符號
3.5 控制流
3.6 檔案與目錄
3.7 常式
3.8 執行指令
3.9 正規表示法
3.10 命令列參數

| 04 | Python 開發語音辨識
4.1 Windows作業系統下安裝Python
4.2 Linux作業系統下安裝Python
4.3 選擇版本
4.4 開發環境
4.5 註釋
4.6 變數
4.7 陣列
4.8 列表
4.9 元組
4.10 字典
4.11 控制流
4.12 模組
4.13 函數
4.14 讀寫檔案
4.15 物件導向程式設計
4.16 命令列參數
4.17 資料庫
4.18 記錄檔記錄
4.19 例外處理
4.20 測試
4.21 語音活動檢測
4.22 使用numpy

| 05 | Java 開發語音辨識
5.1 實現旋積
5.2 KaldiJava
5.3 TensorFlow的Java介面

| 06 | 語音訊號處理
6.1 使用FFmpeg
6.2 標記語音
6.3 時間序列
6.4　端點檢測
6.5 動態時間規整
6.6 傅立葉轉換
6.7 MFCC特徵
6.8 說話者識別
6.9 解碼

| 07 | 深度學習
7.1 神經網路基礎
7.2 旋積神經網路
7.3 架設深度學習開發環境
7.4 nnet3實現程式
7.5 編譯Kaldi
7.6 點對點深度學習
7.7 Dropout解決過度擬合問題
7.8 矩陣運算

| 08 | 語言模型
8.1 機率語言模型
8.2 KenLM語言模型工具套件
8.3 ARPA檔案格式
8.4 依存語言模型
| A | 術語及含義

前言

　　作為人工智慧技術的重要組成部分，語音辨識旨在研究電腦如何聽懂人的講話。來自類神經網路的深度學習促進了語音辨識技術的發展。本書從使用開放原始碼的語音辨識建置系統Kaldi 開始講起，啟動讀者親自實現語音辨識系統，使用了C#、Perl、Python、Java 等多種程式設計工具。

　　第1 章介紹語音辨識的基本原理和Kaldi 的基本使用方法，以及使用Kaldi 開發語音辨識系統應用到的Linux shell 指令稿基礎；

　　第2 章介紹使用C# 開發語音辨識系統；

　　第3 章介紹Perl 語言開發基礎；

　　第4 章介紹開發語音辨識系統所需要的Python 基礎；

　　第5 章介紹使用Java 開發語音辨識系統；

　　第6 章介紹傅立葉轉換、MFCC 特徵等常用的語音訊號處理方法；

　　第7 章介紹基本的神經網路和深度學習方法及訓練神經網路的反向傳播方法；

　　第8 章介紹語音辨識解碼階段用到的語言模型，以及語言模型工具套件—KenLM。

　　本書適合需要實作方式語音辨識的程式設計師使用，對機器學習等相關領域的研究人員也有一定的參考價值。獵兔搜索技術團隊已經開發出以本書為基礎的專門教育訓練課程和商務軟體。

　　本書由柳若邊編著，羅剛、沙芸、張子憲、許想嬌、石天盈、張繼紅、羅庭亮、王全軍、劉宇、張天津也參與了本書的部分編創工作。本書相關的參考軟體和程式在讀者QQ 群（378025857）的附件中可以找到。Kaldi 及其底層依賴的軟體，其複雜程度已經超越了一個人所能掌握的程度。此外，一些實際的細節也可以在讀者QQ 群討論。在此，感謝早期合著者、合作夥伴、員工、學員、讀者的支援，他們為本書的編創提供了良好的工作基礎。技術的融合與創新永無止境，就如和在玻璃容器中水培植物，這是一個持久的工作。