語音辨識概述
「聽有 AI」是 軟雲開發的先進語音辨識技術,專為臺灣市場優化,支援國語、臺語、英語及混合語言辨識,達到業界領先的 97.5% 準確率。核心特色
多語言混合辨識
無縫支援國語、臺語、英語混合語音,自動識別語言切換
即時處理
低於 200ms 的超低延遲,適合即時應用場景
高準確率
97.5% 的辨識準確率,持續優化模型效能
產業優化
針對醫療、金融、教育等產業提供專用模型
支援的語言
語言代碼
| 語言 | 代碼 | 說明 |
|---|---|---|
| 國語 | zh-TW | 臺灣國語,包含繁體中文 |
| 臺語 | zh-TW-taigi | 臺灣閩南語 |
| 英語 | en-US | 美式英語 |
| 混合語言 | mixed | 自動偵測並切換語言 |
語言設定範例
音訊格式支援
支援的格式
| 格式 | 副檔名 | 建議使用場景 |
|---|---|---|
| WAV | .wav | 高品質錄音,無壓縮 |
| MP3 | .mp3 | 一般用途,檔案較小 |
| FLAC | .flac | 無損壓縮,高品質 |
| AAC | .aac | 行動裝置錄音 |
| OGG | .ogg | 開源格式 |
音訊參數
| 參數 | 建議值 | 支援範圍 |
|---|---|---|
| 採樣率 | 16kHz | 8kHz - 48kHz |
| 位元深度 | 16-bit | 16-bit, 24-bit |
| 聲道數 | 單聲道 | 單聲道、立體聲 |
| 編碼 | LINEAR16 | LINEAR16, FLAC, MULAW |
音訊品質最佳化
辨識模式
1. 即時辨識
適用於需要即時回饋的場景,如客服、會議記錄:2. 批次辨識
適用於處理預錄音檔,如影片字幕、Podcast 逐字稿:進階功能
說話者分離
自動識別不同說話者並標記:信心度評分
取得每個詞彙的信心度評分:效能優化
音訊預處理
批次處理優化
錯誤處理
常見錯誤類型
最佳實踐
1. 錄音品質
- 使用高品質麥克風
- 避免背景噪音
- 保持適當的錄音距離(15-30cm)
- 確保音量適中,避免過大或過小
2. 語言使用
- 清晰發音,避免過快語速
- 混合語言時自然切換
- 避免方言過重的表達
3. 應用整合
- 實作適當的錯誤處理
- 提供使用者回饋機制
- 考慮離線備案方案
- 監控 API 使用量
4. 效能考量
- 使用適當的音訊格式
- 實作音訊預處理
- 考慮快取機制
- 批次處理大量檔案
需要更多語音辨識技術支援?請聯絡我們:support@skiesoft.com
