Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Sommario
| Membri | Descrizioni |
|---|---|
| enumerazione PropertyId | Definisce gli ID proprietà voce. Modificata nella versione 1.4.0. |
| enumerazione OutputFormat | Formato di output. |
| enumerazione ProfanityOption | Rimuove il contenuto volgare (giuramento) o sostituisce lettere di parole volgari con stelle. Aggiunta nella versione 1.5.0. |
| enumerazione ResultReason | Specifica i possibili motivi per cui potrebbe essere generato un risultato di riconoscimento. |
| enumerazione CancellationReason | Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe essere annullato. |
| enumerazione CancellationErrorCode | Definisce il codice di errore nel caso in cui CancellationReason sia Error. Aggiunta nella versione 1.1.0. |
| enumerazione NoMatchReason | Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe non essere riconosciuto. |
| enumerazione ActivityJSONType | Definisce i tipi possibili per un valore JSON dell'attività. Aggiunta nella versione 1.5.0. |
| enumerazione SpeechSynthesisOutputFormat | Definisce i possibili formati audio di output di sintesi vocale. Aggiornato nella versione 1.19.0. |
| enumerazione StreamStatus | Definisce lo stato possibile del flusso di dati audio. Aggiunta nella versione 1.4.0. |
| enumerazione ServicePropertyChannel | Definisce i canali usati per passare le impostazioni delle proprietà al servizio. Aggiunta nella versione 1.5.0. |
| enumerazione RecognitionFactorScope | Definisce l'ambito a cui viene applicato un fattore di riconoscimento. |
| enumerazione PronunciationAssessmentGradingSystem | Definisce il sistema di punti per la calibrazione del punteggio di pronuncia; il valore predefinito è FivePoint. Aggiunta nella versione 1.14.0. |
| enum PronunciaValutazioneGranularità | Definisce la granularità della valutazione della pronuncia; il valore predefinito è Phoneme. Aggiunta nella versione 1.14.0. |
| enumerazione SynthesisVoiceType | Definisce il tipo di voci di sintesi aggiunte nella versione 1.16.0. |
| enumerazione SynthesisVoiceGender | Definisce il sesso delle voci di sintesi aggiunte nella versione 1.17.0. |
| enumerazione SynthesisVoiceStatus | Definisce lo stato delle voci di sintesi. |
| enumerazione SpeechSynthesisBoundaryType | Definisce il tipo di limite dell'evento limite di sintesi vocale Aggiunto nella versione 1.21.0. |
| enumerazione SegmentationStrategy | La strategia usata per determinare quando una frase pronunciata è terminata e deve essere generato un risultato riconosciuto finale. I valori consentiti sono "Default", "Time" e "Semantic". |
| classe AudioDataStream | Rappresenta il flusso di dati audio utilizzato per il funzionamento dei dati audio come flusso. Aggiunta nella versione 1.4.0. |
| classe AutoDetectSourceLanguageConfig | Classe che definisce la configurazione dell'origine di rilevamento automatico aggiornata nella versione 1.13.0. |
| classe AutoDetectSourceLanguageResult | Contiene il risultato della lingua di origine rilevata automaticamente Aggiunto nella versione 1.8.0. |
| Classe ClassLanguageModel | Rappresenta un elenco di grammatiche per scenari di grammatica dinamica. Aggiunta nella versione 1.7.0. |
| classe Connection | La connessione è una classe proxy per la gestione della connessione al servizio di riconoscimento vocale specificato. Per impostazione predefinita, un Sistema di riconoscimento gestisce in modo autonomo la connessione al servizio quando necessario. La classe Connection fornisce metodi aggiuntivi per consentire agli utenti di aprire o chiudere una connessione in modo esplicito e di sottoscrivere le modifiche dello stato della connessione. L'uso di Connection è facoltativo. È destinato agli scenari in cui è necessaria l'ottimizzazione del comportamento dell'applicazione in base allo stato della connessione. Gli utenti possono facoltativamente chiamare Open() per avviare manualmente una connessione al servizio prima di avviare il riconoscimento nel Sistema di riconoscimento associato a questa connessione. Dopo l'avvio di un riconoscimento, la chiamata a Open() o Close() potrebbe non riuscire. Ciò non influirà sul riconoscimento o sul riconoscimento in corso. La connessione potrebbe cadere per vari motivi, il Sistema di riconoscimento tenterà sempre di reinstituire la connessione in base alle esigenze per garantire le operazioni in corso. In tutti questi casi gli eventi Connected/Disconnected indicherà la modifica dello stato della connessione. Aggiornato nella versione 1.17.0. |
| classe ConnectionEventArgs | Fornisce i dati per ConnectionEvent. Aggiunta nella versione 1.2.0. |
| classe ConnectionMessage | ConnectionMessage rappresenta i messaggi specifici di implementazione inviati e ricevuti dal servizio di riconoscimento vocale. Questi messaggi vengono forniti a scopo di debug e non devono essere usati per i casi d'uso di produzione con il servizio Voce di Servizi cognitivi di Azure. I messaggi inviati e ricevuti dal servizio Voce sono soggetti a modifiche senza preavviso. Sono inclusi contenuti dei messaggi, intestazioni, payload, ordinamento e così via. Aggiunta nella versione 1.10.0. |
| classe ConnectionMessageEventArgs | Fornisce i dati per ConnectionMessageEvent. |
| classe EmbeddedSpeechConfig | Classe che definisce la configurazione della voce incorporata (offline). |
| classe EventArgs | Classe di base per gli argomenti dell'evento. |
| classe EventSignal | I client possono connettersi al segnale dell'evento per ricevere eventi o disconnettersi dal segnale dell'evento per interrompere la ricezione di eventi. |
| classe EventSignalBase | I client possono connettersi al segnale dell'evento per ricevere eventi o disconnettersi dal segnale dell'evento per interrompere la ricezione di eventi. |
| classe Grammar | Rappresenta la grammatica della classe di base per la personalizzazione del riconoscimento vocale. Aggiunta nella versione 1.5.0. |
| classe GrammarList | Rappresenta un elenco di grammatiche per scenari di grammatica dinamica. Aggiunta nella versione 1.7.0. |
| classe GrammarPhrase | Rappresenta una frase che può essere pronunciata dall'utente. Aggiunta nella versione 1.5.0. |
| classe HybridSpeechConfig | Classe che definisce configurazioni ibride (cloud e incorporate) per il riconoscimento vocale o la sintesi vocale. |
| classe KeywordRecognitionEventArgs | Classe per gli eventi emmited by the KeywordRecognizer. |
| classe KeywordRecognitionModel | Rappresenta il modello di riconoscimento delle parole chiave usato con i metodi StartKeywordRecognitionAsync. |
| classe KeywordRecognitionResult | Classe che definisce i risultati generati dal KeywordRecognizer. |
| classe KeywordRecognizer | Tipo di riconoscimento specializzato per gestire solo l'attivazione delle parole chiave. |
| classe PhraseListGrammar | Rappresenta una grammatica dell'elenco di frasi per scenari di grammatica dinamica. Aggiunta nella versione 1.5.0. |
| classe PronunciationAssessmentConfig | Classe che definisce la configurazione della valutazione della pronuncia Aggiunta nella versione 1.14.0. |
| classe PronunciationAssessmentResult | Classe per i risultati della valutazione della pronuncia. |
| classe PropertyCollection | Classe per recuperare o impostare un valore della proprietà da una raccolta di proprietà. |
| classe AsyncRecognizer | Classe di base astratta AsyncRecognizer. |
| classe BaseAsyncRecognizer | Classe BaseAsyncRecognizer. |
| classe RecognitionEventArgs | Fornisce i dati per RecognitionEvent. |
| classe RecognitionResult | Contiene informazioni dettagliate sul risultato di un'operazione di riconoscimento. |
| classe CancellationDetails | Contiene informazioni dettagliate sul motivo per cui un risultato è stato annullato. |
| classe NoMatchDetails | Contiene informazioni dettagliate per i risultati del riconoscimento NoMatch. |
| classe Recognizer | Classe di base recognizer. |
| classe SessionEventArgs | Classe di base per gli argomenti dell'evento di sessione. |
| classe SmartHandle | Classe handle intelligente. |
| classe SourceLanguageConfig | Classe che definisce la configurazione del linguaggio di origine, aggiunta nella versione 1.8.0. |
| classe SourceLanguageRecognizer | Classe per i riconoscitori del linguaggio di origine. È possibile usare questa classe per il rilevamento della lingua autonomo. Aggiunta nella versione 1.17.0. |
| classe SpeechConfig | Classe che definisce configurazioni per il riconoscimento vocale o la sintesi vocale. |
| classe SpeechRecognitionEventArgs | Classe per gli argomenti dell'evento di riconoscimento vocale. |
| classe SpeechRecognitionCanceledEventArgs | Classe per gli argomenti dell'evento annullati per il riconoscimento vocale. |
| classe SpeechRecognitionModel | Informazioni sul modello di riconoscimento vocale. |
| classe SpeechRecognitionResult | Classe di base per i risultati del riconoscimento vocale. |
| classe SpeechRecognizer | Classe per i riconoscitori vocali. |
| classe SpeechSynthesisBookmarkEventArgs | Classe per gli argomenti dell'evento del segnalibro di sintesi vocale. Aggiunta nella versione 1.16.0. |
| classe SpeechSynthesisEventArgs | Classe per gli argomenti dell'evento di sintesi vocale. Aggiunta nella versione 1.4.0. |
| classe SpeechSynthesisRequest | Classe che definisce la richiesta di sintesi vocale. Questa classe è in anteprima ed è soggetta a modifiche. Aggiunta nella versione 1.37.0. |
| classe PersonalVoiceSynthesisRequest | Classe che definisce la richiesta di sintesi vocale per la voce personale (aka.ms/azureai/personal-voice). Questa classe è in anteprima ed è soggetta a modifiche. Aggiunta nella versione 1.39.0. |
| classe SpeechSynthesisResult | Contiene informazioni sui risultati della sintesi vocale. Aggiunta nella versione 1.4.0. |
| classe SpeechSynthesisCancellationDetails | Contiene informazioni dettagliate sul motivo per cui un risultato è stato annullato. Aggiunta nella versione 1.4.0. |
| classe SpeechSynthesisVisemeEventArgs | Classe per gli argomenti dell'evento viseme di sintesi vocale. Aggiunta nella versione 1.16.0. |
| classe SpeechSynthesisWordBoundaryEventArgs | Classe per gli argomenti dell'evento limite della parola di sintesi vocale. Aggiunta nella versione 1.7.0. |
| classe SpeechSynthesizer | Classe per il sintetizzatore vocale. Aggiornato nella versione 1.14.0. |
| classe SpeechTranslationModel | Informazioni sul modello di traduzione vocale. |
| classe SynthesisVoicesResult | Contiene informazioni sui risultati dall'elenco di voci dei sintetizzatori vocali. Aggiunta nella versione 1.16.0. |
| classe VoiceInfo | Contiene informazioni sulle informazioni vocali di sintesi aggiornate nella versione 1.17.0. |
Membri
enum PropertyId
| Valori | Descrizioni |
|---|---|
| SpeechServiceConnection_Key | Chiave di sottoscrizione del Servizio di riconoscimento vocale di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::FromSubscription. |
| SpeechServiceConnection_Endpoint | Endpoint del servizio Voce di Servizi cognitivi (URL). In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::FromEndpoint. NOTA: questo endpoint non corrisponde all'endpoint usato per ottenere un token di accesso. |
| SpeechServiceConnection_Region | Area del Servizio di riconoscimento vocale di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::FromSubscription, SpeechConfig::FromEndpoint, SpeechConfig::FromHost, SpeechConfig::FromAuthorizationToken. |
| SpeechServiceAuthorization_Token | Token di autorizzazione del Servizio di riconoscimento vocale di Servizi cognitivi (noto anche come token di accesso). In circostanze normali, non è necessario usare direttamente questa proprietà. Invece, usa SpeechConfig::FromAuthorizationToken, SpeechRecognizer::SetAuthorizationToken o TranslationRecognizer::SetAuthorizationToken. |
| SpeechServiceAuthorization_Type | Tipo di autorizzazione del Servizio di riconoscimento vocale di Servizi cognitivi. Attualmente inutilizzato. |
| SpeechServiceConnection_EndpointId | ID endpoint servizio vocale personalizzato o riconoscimento vocale personalizzato di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::SetEndpointId. NOTA: l'ID endpoint è disponibile nel portale di riconoscimento vocale personalizzato, elencato in Dettagli endpoint. |
| SpeechServiceConnection_Host | Host del Servizio di riconoscimento vocale di Servizi cognitivi (URL). In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::FromHost. |
| SpeechServiceConnection_ProxyHostName | Nome host del server proxy usato per connettersi al Servizio di riconoscimento vocale di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::SetProxy. NOTA: questo ID proprietà è stato aggiunto nella versione 1.1.0. |
| SpeechServiceConnection_ProxyPort | Porta del server proxy usata per connettersi al Servizio di riconoscimento vocale di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::SetProxy. NOTA: questo ID proprietà è stato aggiunto nella versione 1.1.0. |
| SpeechServiceConnection_ProxyUserName | Nome utente del server proxy usato per connettersi al Servizio di riconoscimento vocale di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::SetProxy. NOTA: questo ID proprietà è stato aggiunto nella versione 1.1.0. |
| SpeechServiceConnection_ProxyPassword | Password del server proxy usato per connettersi al Servizio di riconoscimento vocale di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::SetProxy. NOTA: questo ID proprietà è stato aggiunto nella versione 1.1.0. |
| SpeechServiceConnection_Url | Stringa url creata dalla configurazione del riconoscimento vocale. Questa proprietà deve essere di sola lettura. L'SDK lo usa internamente. NOTA: aggiunta nella versione 1.5.0. |
| SpeechServiceConnection_ProxyHostBypass | Specifica l'elenco di host per i quali non usare i proxy. Questa impostazione esegue l'override di tutte le altre configurazioni. I nomi host sono separati da virgole e corrispondono in modo senza distinzione tra maiuscole e minuscole. I caratteri jolly non sono supportati. |
| SpeechServiceConnection_TranslationToLanguages | Elenco di lingue separate da virgole usate come lingue di traduzione di destinazione. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechTranslationConfig::AddTargetLanguage e SpeechTranslationConfig::GetTargetLanguages. |
| SpeechServiceConnection_TranslationVoice | Nome della voce Del servizio di riconoscimento vocale di Servizi cognitivi. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechTranslationConfig::SetVoiceName. NOTA: i nomi di voce validi sono disponibili qui. |
| SpeechServiceConnection_TranslationFeatures | Funzionalità di traduzione. Per uso interno. |
| SpeechServiceConnection_RecoMode | Modalità di riconoscimento del servizio voce di Servizi cognitivi. Può essere "INTERACTIVE", "CONVERSATION", "DICTATION". Questa proprietà deve essere di sola lettura. L'SDK lo usa internamente. |
| SpeechServiceConnection_RecoLanguage | Lingua parlata da riconoscere (in formato BCP-47). In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::SetSpeechRecognitionLanguage. |
| Speech_SessionId | ID sessione. Questo ID è un identificatore univoco universale (noto anche come UUID) che rappresenta un'associazione specifica di un flusso di input audio e l'istanza di riconoscimento vocale sottostante a cui è associata. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SessionEventArgs::SessionId. |
| SpeechServiceConnection_UserDefinedQueryParameters | Parametri di query forniti dagli utenti. Verranno passati al servizio come parametri di query URL. Aggiunta nella versione 1.5.0. |
| SpeechServiceConnection_RecoBackend | Stringa per specificare il back-end da usare per il riconoscimento vocale; le opzioni consentite sono online e offline. In circostanze normali, non è consigliabile usare direttamente questa proprietà. Attualmente l'opzione offline è valida solo quando viene usato EmbeddedSpeechConfig. Aggiunta nella versione 1.19.0. |
| SpeechServiceConnection_RecoModelName | Nome del modello da usare per il riconoscimento vocale. In circostanze normali, non è consigliabile usare direttamente questa proprietà. Attualmente questa opzione è valida solo quando viene usato EmbeddedSpeechConfig. Aggiunta nella versione 1.19.0. |
| SpeechServiceConnection_RecoModelKey | Questa proprietà è deprecata. |
| SpeechServiceConnection_RecoModelIniFile | Percorso del file ini del modello da usare per il riconoscimento vocale. In circostanze normali, non è consigliabile usare direttamente questa proprietà. Attualmente questa opzione è valida solo quando viene usato EmbeddedSpeechConfig. Aggiunta nella versione 1.19.0. |
| SpeechServiceConnection_SynthLanguage | Lingua parlata da sintetizzare (ad esempio, en-US) Aggiunta nella versione 1.4.0. |
| SpeechServiceConnection_SynthVoice | Nome della voce TTS da usare per la sintesi vocale Aggiunta nella versione 1.4.0. |
| SpeechServiceConnection_SynthOutputFormat | Stringa per specificare il formato audio di output TTS Aggiunto nella versione 1.4.0. |
| SpeechServiceConnection_SynthEnableCompressedAudioTransmission | Indica se usa il formato audio compresso per la trasmissione audio di sintesi vocale. Questa proprietà influisce solo quando SpeechServiceConnection_SynthOutputFormat è impostato su un formato pcm. Se questa proprietà non è impostata e GStreamer è disponibile, SDK userà il formato compresso per la trasmissione audio sintetizzata e decodificarlo. È possibile impostare questa proprietà su "false" per utilizzare il formato pcm non elaborato per la trasmissione in rete. Aggiunta nella versione 1.16.0. |
| SpeechServiceConnection_SynthBackend | Stringa per specificare il back-end TTS; le opzioni valide sono online e offline. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece EmbeddedSpeechConfig::FromPath o EmbeddedSpeechConfig::FromPaths per impostare il back-end di sintesi su offline. Aggiunta nella versione 1.19.0. |
| SpeechServiceConnection_SynthOfflineDataPath | I percorsi dei file di dati per il motore di sintesi offline; valido solo quando il back-end di sintesi è offline. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece EmbeddedSpeechConfig::FromPath o EmbeddedSpeechConfig::FromPaths. Aggiunta nella versione 1.19.0. |
| SpeechServiceConnection_SynthOfflineVoice | Nome della voce TTS offline da usare per la sintesi vocale In circostanze normali, non è consigliabile usare direttamente questa proprietà. Usare invece EmbeddedSpeechConfig::SetSpeechSynthesisVoice e EmbeddedSpeechConfig::GetSpeechSynthesisVoiceName. Aggiunta nella versione 1.19.0. |
| SpeechServiceConnection_SynthModelKey | Questa proprietà è deprecata. |
| SpeechServiceConnection_VoicesListEndpoint | L'endpoint api (URL) dell'elenco voci del servizio Voce di Servizi cognitivi. In circostanze normali, non è necessario specificare questa proprietà, l'SDK lo creerà in base all'area/host/endpoint di SpeechConfig. Aggiunta nella versione 1.16.0. |
| SpeechServiceConnection_InitialSilenceTimeoutMs | Valore di timeout del silenzio iniziale (in millisecondi) usato dal servizio. Aggiunta nella versione 1.5.0. |
| SpeechServiceConnection_EndSilenceTimeoutMs | Questa proprietà è deprecata. Per informazioni aggiornate sui timeout del silenzio, visitare il sito https://aka.ms/csspeech/timeouts. |
| SpeechServiceConnection_EnableAudioLogging | Valore booleano che specifica se la registrazione audio è abilitata o meno nel servizio. I log audio e del contenuto vengono archiviati nella risorsa di archiviazione di proprietà di Microsoft o nel proprio account di archiviazione collegato alla sottoscrizione di Servizi cognitivi (risorsa byos bring your own storage (BYOS) abilitata per il riconoscimento vocale. Aggiunta nella versione 1.5.0. |
| SpeechServiceConnection_LanguageIdMode | Modalità identificatore lingua di connessione del servizio voce. Può essere "AtStart" (impostazione predefinita) o "Continuous". Vedere documento di identificazione della lingua. Aggiunta nella versione 1.25.0. |
| SpeechServiceConnection_TranslationCategoryId | Categoria di conversione della connessione del servizio di riconoscimento vocaleId. |
| SpeechServiceConnection_AutoDetectSourceLanguages | Le lingue di origine del rilevamento automatico aggiunte nella versione 1.8.0. |
| SpeechServiceConnection_AutoDetectSourceLanguageResult | Il risultato del rilevamento automatico della lingua di origine è stato aggiunto nella versione 1.8.0. |
| SpeechServiceResponse_RequestDetailedResultTrueFalse | Formato di output della risposta del servizio voce di Servizi cognitivi richiesto (semplice o dettagliato). In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece SpeechConfig::SetOutputFormat. |
| SpeechServiceResponse_RequestProfanityFilterTrueFalse | Livello di contenuto volgare dell'output della risposta del Servizio di riconoscimento vocale di Servizi cognitivi richiesto. Attualmente inutilizzato. |
| SpeechServiceResponse_ProfanityOption | Impostazione di contenuto volgare dell'output della risposta di Servizi cognitivi richiesti. I valori consentiti sono "masked", "removed" e "raw". Aggiunta nella versione 1.5.0. |
| SpeechServiceResponse_PostProcessingOption | Valore stringa che specifica quale opzione di post-elaborazione deve essere usata dal servizio. Aggiunta nella versione 1.5.0. |
| SpeechServiceResponse_RequestWordLevelTimestamps | Valore booleano che specifica se includere timestamp a livello di parola nel risultato della risposta. Aggiunta nella versione 1.5.0. |
| SpeechServiceResponse_StablePartialResultThreshold | Numero di volte in cui una parola deve essere restituita in risultati parziali. Aggiunta nella versione 1.5.0. |
| SpeechServiceResponse_OutputFormatOption | Valore stringa che specifica l'opzione di formato di output nel risultato della risposta. Solo uso interno. Aggiunta nella versione 1.5.0. |
| SpeechServiceResponse_RequestSnr | Valore booleano che specifica se includere SNR (rapporto segnale/rumore) nel risultato della risposta. Aggiunta nella versione 1.18.0. |
| SpeechServiceResponse_TranslationRequestStablePartialResult | Valore booleano da richiedere la stabilizzazione dei risultati parziali della traduzione omettendo parole alla fine. Aggiunta nella versione 1.5.0. |
| SpeechServiceResponse_RequestWordBoundary | Valore booleano che specifica se richiedere eventi WordBoundary. Aggiunta nella versione 1.21.0. |
| SpeechServiceResponse_RequestPunctuationBoundary | Valore booleano che specifica se richiedere il limite di punteggiatura negli eventi wordboundary. Il valore predefinito è true. Aggiunta nella versione 1.21.0. |
| SpeechServiceResponse_RequestSentenceBoundary | Valore booleano che specifica se richiedere il limite della frase in Eventi wordBoundary. Il valore predefinito è false. Aggiunta nella versione 1.21.0. |
| SpeechServiceResponse_SynthesisEventsSyncToAudio | Valore booleano che specifica se l'SDK deve sincronizzare gli eventi dei metadati di sintesi, ad esempio il limite delle parole, viseme e così via, alla riproduzione audio. Questa operazione ha effetto solo quando l'audio viene riprodotto tramite l'SDK. Il valore predefinito è true. Se impostato su false, l'SDK attiverà gli eventi man mano che provengono dal servizio, che potrebbero non essere sincronizzati con la riproduzione audio. Aggiunta nella versione 1.31.0. |
| SpeechServiceResponse_JsonResult | Output della risposta del servizio voce di Servizi cognitivi (in formato JSON). Questa proprietà è disponibile solo per gli oggetti risultato di riconoscimento. |
| SpeechServiceResponse_JsonErrorDetails | Dettagli dell'errore del Servizio di riconoscimento vocale di Servizi cognitivi (in formato JSON). In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece CancellationDetails::ErrorDetails. |
| SpeechServiceResponse_RecognitionLatencyMs | Latenza di riconoscimento in millisecondi. Sola lettura, disponibile nei risultati finali del discorso/traduzione. Questa misura la latenza tra quando un input audio viene ricevuto dall'SDK e il momento in cui il risultato finale viene ricevuto dal servizio. L'SDK calcola la differenza di tempo tra l'ultimo frammento audio dell'input audio che contribuisce al risultato finale e l'ora in cui il risultato finale viene ricevuto dal servizio di riconoscimento vocale. Aggiunta nella versione 1.3.0. |
| SpeechServiceResponse_RecognitionBackend | Back-end di riconoscimento. Sola lettura, disponibile nei risultati del riconoscimento vocale. Indica se il riconoscimento cloud (online) o incorporato (offline) è stato usato per produrre il risultato. |
| SpeechServiceResponse_RequestId | La richiesta ID dal servizio vocale per questo riconoscimento. Questo è un identificatore univoco per la richiesta. Di sola lettura, disponibile nei risultati finali di riconoscimento vocale/traduzione. |
| SpeechServiceResponse_SynthesisFirstByteLatencyMs | La latenza di primo byte della sintesi vocale in millisecondi. Sola lettura, disponibile nei risultati finali della sintesi vocale. In questo modo viene misurata la latenza tra l'elaborazione della sintesi e il momento in cui è disponibile il primo audio di byte. Aggiunta nella versione 1.17.0. |
| SpeechServiceResponse_SynthesisFinishLatencyMs | La latenza di tutti i byte di sintesi vocale in millisecondi. Sola lettura, disponibile nei risultati finali della sintesi vocale. In questo modo viene misurata la latenza tra l'elaborazione della sintesi e il momento in cui viene sintetizzato l'intero audio. Aggiunta nella versione 1.17.0. |
| SpeechServiceResponse_SynthesisUnderrunTimeMs | Tempo di sottorun per la sintesi vocale in millisecondi. Proprietà di sola lettura, disponibile nei risultati negli eventi SynthesisCompleted. Questo misura il tempo totale di sottorun da PropertyId::AudioConfig_PlaybackBufferLengthInMs viene compilato per la sintesi completata. Aggiunta nella versione 1.17.0. |
| SpeechServiceResponse_SynthesisConnectionLatencyMs | Latenza della connessione di sintesi vocale in millisecondi. Sola lettura, disponibile nei risultati finali della sintesi vocale. In questo modo viene misurata la latenza tra l'avvio dell'elaborazione della sintesi e il momento in cui viene stabilita la connessione HTTP/WebSocket. Aggiunta nella versione 1.26.0. |
| SpeechServiceResponse_SynthesisNetworkLatencyMs | Latenza della rete di sintesi vocale in millisecondi. Sola lettura, disponibile nei risultati finali della sintesi vocale. Questo misura il tempo di andata e ritorno della rete. Aggiunta nella versione 1.26.0. |
| SpeechServiceResponse_SynthesisServiceLatencyMs | Latenza del servizio di sintesi vocale in millisecondi. Sola lettura, disponibile nei risultati finali della sintesi vocale. In questo modo viene misurato il tempo di elaborazione del servizio per sintetizzare il primo byte di audio. Aggiunta nella versione 1.26.0. |
| SpeechServiceResponse_SynthesisBackend | Indica il back-end in cui viene completata la sintesi. Sola lettura, disponibile nei risultati della sintesi vocale, ad eccezione del risultato dell'evento SynthesisStarted Aggiunto nella versione 1.17.0. |
| SpeechServiceResponse_DiarizeIntermediateResults | Determina se i risultati intermedi contengono l'identificazione della voce. |
| CancellationDetails_Reason | Motivo dell'annullamento. Attualmente inutilizzato. |
| CancellationDetails_ReasonText | Testo di annullamento. Attualmente inutilizzato. |
| CancellationDetails_ReasonDetailedText | Testo dettagliato dell'annullamento. Attualmente inutilizzato. |
| AudioConfig_DeviceNameForCapture | Nome del dispositivo per l'acquisizione audio. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece AudioConfig::FromMicrophoneInput. NOTA: questo ID proprietà è stato aggiunto nella versione 1.3.0. |
| AudioConfig_NumberOfChannelsForCapture | Numero di canali per l'acquisizione audio. Solo uso interno. NOTA: questo ID proprietà è stato aggiunto nella versione 1.3.0. |
| AudioConfig_SampleRateForCapture | Frequenza di campionamento (in Hz) per l'acquisizione audio. Solo uso interno. NOTA: questo ID proprietà è stato aggiunto nella versione 1.3.0. |
| AudioConfig_BitsPerSampleForCapture | Numero di bit di ogni campione per l'acquisizione audio. Solo uso interno. NOTA: questo ID proprietà è stato aggiunto nella versione 1.3.0. |
| AudioConfig_AudioSource | Origine audio. I valori consentiti sono "Microfoni", "File" e "Stream". Aggiunta nella versione 1.3.0. |
| AudioConfig_DeviceNameForRender | Nome del dispositivo per il rendering audio. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece AudioConfig::FromSpeakerOutput. Aggiunta nella versione 1.14.0. |
| AudioConfig_PlaybackBufferLengthInMs | La lunghezza del buffer di riproduzione in millisecondi, il valore predefinito è 50 millisecondi. |
| AudioConfig_AudioProcessingOptions | Opzioni di elaborazione audio in formato JSON. |
| Speech_LogFilename | Nome del file da scrivere i log. Aggiunta nella versione 1.4.0. |
| Speech_SegmentationSilenceTimeoutMs | Durata del silenzio rilevato, misurata in millisecondi, dopo la quale la sintesi vocale determinerà la fine di una frase pronunciata e genererà un risultato riconosciuto finale. La configurazione di questo timeout può essere utile nelle situazioni in cui l'input parlato è notevolmente più veloce o più lento del solito e il comportamento di segmentazione predefinito produce risultati troppo lunghi o troppo brevi. I valori di timeout della segmentazione che sono inappropriati o bassi possono influire negativamente sull'accuratezza della sintesi vocale; questa proprietà deve essere configurata attentamente e il comportamento risultante deve essere convalidato accuratamente come previsto. Il valore deve essere compreso nell'intervallo [100, 5000] millisecondi. |
| Speech_SegmentationMaximumTimeMs | Lunghezza massima di una frase pronunciata quando si usa la strategia di segmentazione "Time". Per utilizzare questa impostazione, è necessario impostare il valore di Speech_SegmentationSilenceTimeoutMs. Man mano che la lunghezza di una frase pronunciata si avvicina a questo valore, il Speech_SegmentationSilenceTimeoutMs inizierà a essere ridotto fino a quando non viene raggiunto il timeout del silenzio della frase o la frase raggiunge la lunghezza massima. Il valore deve essere compreso nell'intervallo [20000, 70000] millisecondi. |
| Speech_SegmentationStrategy | La strategia usata per determinare quando una frase pronunciata è terminata e deve essere generato un risultato riconosciuto finale. I valori consentiti sono "Default", "Time" e "Semantic". |
| Speech_StartEventSensitivity | Controlla la rapidità con cui il sistema segnala un potenziale avvio di voce dopo aver rilevato attività vocale. Questa impostazione non altera l'algoritmo sottostante di rilevamento dell'attività vocale. Regola solo i criteri di tempistica per lanciare un evento SpeechStartDetected. |
| Conversation_ApplicationId | Identificatore usato per connettersi al servizio back-end. Aggiunta nella versione 1.5.0. |
| Conversation_DialogType | Tipo di back-end della finestra di dialogo a cui connettersi. Aggiunta nella versione 1.7.0. |
| Conversation_Initial_Silence_Timeout | Timeout di silenzio per l'ascolto Aggiunto nella versione 1.5.0. |
| Conversation_From_Id | Da ID da usare nelle attività di riconoscimento vocale Aggiunte nella versione 1.5.0. |
| Conversation_Conversation_Id | ConversationId per la sessione. Aggiunta nella versione 1.8.0. |
| Conversation_Custom_Voice_Deployment_Ids | Elenco delimitato da virgole di ID distribuzione vocale personalizzati. Aggiunta nella versione 1.8.0. |
| Conversation_Speech_Activity_Template | Modello di attività voce, proprietà stamp nel modello sull'attività generata dal servizio per la voce. Aggiunta nella versione 1.10.0. |
| Conversation_ParticipantId | Identificatore del partecipante nella conversazione corrente. Aggiunta nella versione 1.13.0. |
| Conversation_Request_Bot_Status_Messages | |
| Conversation_Connection_Id | |
| DataBuffer_TimeStamp | Timestamp associato al buffer di dati scritto dal client quando si usano flussi di input audio pull/push. Il timestamp è un valore a 64 bit con una risoluzione di 90 kHz. È uguale al timestamp della presentazione in un flusso di trasporto MPEG. Vedere https://en.wikipedia.org/wiki/Presentation_timestamp Aggiunta nella versione 1.5.0. |
| DataBuffer_UserId | ID utente associato al buffer di dati scritto dal client quando si usano flussi di input audio pull/push. Aggiunta nella versione 1.5.0. |
| PronunciationAssessment_ReferenceText | Testo di riferimento dell'audio per la valutazione della pronuncia. Per questo e i parametri di valutazione della pronuncia seguenti, vedere la tabella parametri di valutazione della pronuncia. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::Create o PronunciationAssessmentConfig::SetReferenceText. Aggiunta nella versione 1.14.0. |
| PronunciationAssessment_GradingSystem | Sistema di punti per la calibrazione del punteggio di pronuncia (FivePoint o HundredMark). In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::Create. Aggiunta nella versione 1.14.0. |
| PronunciationAssessment_Granularity | Granularità della valutazione della pronuncia (Phoneme, Word o FullText). In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::Create. Aggiunta nella versione 1.14.0. |
| PronunciationAssessment_EnableMiscue | Definisce se abilitare il calcolo errato. Con questa opzione abilitata, le parole pronunciate verranno confrontate con il testo di riferimento e verranno contrassegnate con omissione/inserimento in base al confronto. L'impostazione predefinita è False. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::Create. Aggiunta nella versione 1.14.0. |
| PronunciationAssessment_PhonemeAlphabet | Alfabeto phoneme di valutazione della pronuncia. I valori validi sono "SAPI" (impostazione predefinita) e "IPA" In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::SetPhonemeAlphabet. Aggiunta nella versione 1.20.0. |
| PronunciationAssessment_NBestPhonemeCount | Numero di fonemi di valutazione della pronuncia. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::SetNBestPhonemeCount. Aggiunta nella versione 1.20.0. |
| PronunciationAssessment_EnableProsodyAssessment | Se abilitare la valutazione prosodia. In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::EnableProsodyAssessment. Aggiunta nella versione 1.33.0. |
| PronunciationAssessment_Json | Stringa json dei parametri di valutazione della pronuncia In circostanze normali, non è necessario usare direttamente questa proprietà. Usare invece PronunciationAssessmentConfig::Create. Aggiunta nella versione 1.14.0. |
| PronunciationAssessment_Params | Parametri di valutazione della pronuncia. Questa proprietà deve essere di sola lettura. L'SDK lo usa internamente. Aggiunta nella versione 1.14.0. |
| SpeechTranslation_ModelName | Nome di un modello da usare per la traduzione vocale. Non utilizzare direttamente questa proprietà. Attualmente questa opzione è valida solo quando viene usato EmbeddedSpeechConfig. |
| SpeechTranslation_ModelKey | Questa proprietà è deprecata. |
| KeywordRecognition_ModelName | Nome di un modello da usare per il riconoscimento delle parole chiave. Non utilizzare direttamente questa proprietà. Attualmente questa opzione è valida solo quando viene usato EmbeddedSpeechConfig. |
| KeywordRecognition_ModelKey | Questa proprietà è deprecata. |
| EmbeddedSpeech_EnablePerformanceMetrics | Abilitare la raccolta di metriche delle prestazioni vocali incorporate che possono essere usate per valutare la funzionalità di un dispositivo per l'uso del riconoscimento vocale incorporato. I dati raccolti sono inclusi nei risultati di scenari specifici, ad esempio il riconoscimento vocale. L'impostazione predefinita è "false". Si noti che le metriche potrebbero non essere disponibili in tutti gli scenari di riconoscimento vocale incorporato. |
| SpeechSynthesisRequest_Pitch | Passo del parlato sintetizzato. |
| SpeechSynthesisRequest_Rate | Frequenza del parlato sintetizzato. |
| SpeechSynthesisRequest_Volume | Volume del parlato sintetizzato. |
| SpeechSynthesisRequest_Style | Stile del parlato sintetizzato. |
| SpeechSynthesisRequest_Temperature | Temperatura del parlato sintetizzato. Il parametro temperature diventa effettivo solo quando la voce è una voce HD. |
| SpeechSynthesisRequest_CustomLexiconUrl | URL del lessico personalizzato per il discorso sintetizzato. Fornisce un URL a un lessico di pronuncia personalizzato da utilizzare durante la sintesi. |
| SpeechSynthesisRequest_PreferLocales | Le impostazioni locali preferite per il discorso sintetizzato. Elenco separato da virgole dei nomi delle impostazioni locali in ordine di preferenza. |
| SpeechSynthesis_FrameTimeoutInterval | Intervallo di timeout in millisecondi tra fotogrammi audio vocali sintetizzati. Maggiore di questo e 10 secondi viene usato come timeout del fotogramma rigido. Un timeout di sintesi vocale si verifica se a) il tempo trascorso dopo l'ultimo intervallo di timeout supera questo intervallo di timeout e il fattore di Real-Time (RTF) supera il valore massimo oppure b) il tempo trascorso dopo che il fotogramma più recente supera il timeout dell'intervallo di tempo rigido. |
| SpeechSynthesis_RtfTimeoutThreshold | Valore massimo Real-Time Factor (RTF) per la sintesi vocale. Il formato RTF viene calcolato come RTF = f(d)/d dove f(d) è il tempo impiegato per sintetizzare l'audio vocale della durata d. |
Definisce gli ID proprietà voce. Modificata nella versione 1.4.0.
enum OutputFormat
| Valori | Descrizioni |
|---|---|
| Semplice | |
| Dettagliato |
Formato di output.
enumErazione VolgaritàOpzioni
| Valori | Descrizioni |
|---|---|
| Mascherato | Sostituisce le lettere in parole volgari con i caratteri star. |
| Lontano | Rimuove le parole volgari. |
| Crudo | Non fa nulla per volgare le parole. |
Rimuove il contenuto volgare (giuramento) o sostituisce lettere di parole volgari con stelle. Aggiunta nella versione 1.5.0.
enum ResultReason
| Valori | Descrizioni |
|---|---|
| Nessuna corrispondenza | Indica che non è stato possibile riconoscere il riconoscimento vocale. Altri dettagli sono disponibili nell'oggetto NoMatchDetails. |
| Annullato | Indica che il riconoscimento è stato annullato. Per altre informazioni, vedere l'oggetto CancellationDetails. |
| Riconoscimento diSpeech | Indica che il risultato vocale contiene testo di ipotesi. |
| Riconoscimento vocale | Indica che il risultato vocale contiene testo finale riconosciuto. Riconoscimento vocale è ora completo per questa frase. |
| Riconoscimento diIntent | Questa ragione risultante è stata deprecata e non più utilizzata. |
| RecognizedIntent | Questa ragione risultante è stata deprecata e non più utilizzata. |
| Traduzionespeech | Indica che il risultato della traduzione contiene testo di ipotesi e le relative traduzioni. |
| Traduzione | Indica che il risultato della traduzione contiene testo finale e traduzioni corrispondenti. Il riconoscimento vocale e la traduzione sono ora completi per questa frase. |
| Sintetizzare l'audio | Indica che il risultato audio sintetizzato contiene una quantità non zero di dati audio. |
| SintetizzareAudioCompletato | Indica che l'audio sintetizzato è ora completo per questa frase. |
| Riconoscimento diKeyword | Indica che il risultato vocale contiene testo della parola chiave (non verificato). Aggiunta nella versione 1.3.0. |
| Parola chiave riconosciuta | Indica che il riconoscimento delle parole chiave è stato completato riconoscendo la parola chiave specificata. Aggiunta nella versione 1.3.0. |
| SintetizzareAudioStarted | Indica che la sintesi vocale è stata avviata aggiunta nella versione 1.4.0. |
| TraduzioneParticipantSpeech | Indica che il risultato della trascrizione contiene testo di ipotesi e le relative traduzioni per altri partecipanti alla conversazione. Aggiunta nella versione 1.8.0. |
| TradottoPartecipanteDiscorso | Indica che il risultato della trascrizione contiene testo finale e traduzioni corrispondenti per altri partecipanti alla conversazione. Il riconoscimento vocale e la traduzione sono ora completi per questa frase. Aggiunta nella versione 1.8.0. |
| TranslatedInstantMessage | Indica che il risultato della trascrizione contiene il messaggio istantaneo e le traduzioni corrispondenti. Aggiunta nella versione 1.8.0. |
| TranslatedParticipantInstantMessage | Indica che il risultato della trascrizione contiene il messaggio istantaneo per altri partecipanti alla conversazione e le traduzioni corrispondenti. Aggiunta nella versione 1.8.0. |
| RegistrazioneVoiceProfile | Questa ragione risultante è stata deprecata e non più utilizzata. |
| EnrolledVoiceProfile | Questa ragione risultante è stata deprecata e non più utilizzata. |
| Speakers: Riconosciuti | Questa ragione risultante è stata deprecata e non più utilizzata. |
| Altoparlante riconosciuto | Questa ragione risultante è stata deprecata e non più utilizzata. |
| ResetVoiceProfile | Questa ragione risultante è stata deprecata e non più utilizzata. |
| DeletedVoiceProfile | Questa ragione risultante è stata deprecata e non più utilizzata. |
| VoicesListRetrieved | Indica che l'elenco voci è stato recuperato correttamente. Aggiunta nella versione 1.16.0. |
Specifica i possibili motivi per cui potrebbe essere generato un risultato di riconoscimento.
enum CancellationReason
| Valori | Descrizioni |
|---|---|
| Errore | Indica che si è verificato un errore durante il riconoscimento vocale. |
| EndOfStream | Indica che è stata raggiunta la fine del flusso audio. |
| AnnullatoDall'utente | Indica che la richiesta è stata annullata dall'utente. Aggiunta nella versione 1.14.0. |
Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe essere annullato.
enum CancellationErrorCode
| Valori | Descrizioni |
|---|---|
| Nessun errore | Nessun errore. Se CancellationReason è EndOfStream, CancellationErrorCode è impostato su NoError. |
| Errore di autenticazione | Indica un errore di autenticazione. Si verifica un errore di autenticazione se la chiave di sottoscrizione o il token di autorizzazione non è valido, è scaduto o non corrisponde all'area in uso. |
| Richiesta non valida | Indica che uno o più parametri di riconoscimento non sono validi o che il formato audio non è supportato. |
| TooManyRequests | Indica che il numero di richieste parallele ha superato il numero di trascrizioni simultanee consentite per la sottoscrizione. |
| Vietato | Indica che la sottoscrizione gratuita usata dalla richiesta ha esaurito la quota. |
| Errore di connessione | Indica un errore di connessione. |
| ServiceTimeout | Indica un errore di timeout durante l'attesa della risposta dal servizio. |
| Errore del servizio | Indica che viene restituito un errore dal servizio. |
| Servizio non disponibile | Indica che il servizio non è attualmente disponibile. |
| Errore di esecuzione | Indica un errore di runtime imprevisto. |
| ServiceRedirectTemporary | Indica che il servizio Voce richiede temporaneamente una riconnessione a un endpoint diverso. |
| ServiceRedirectPermanent | Indica che il servizio Voce richiede in modo permanente una riconnessione a un endpoint diverso. |
| Errore del modello incorporato | Indica che il modello di riconoscimento vocale incorporato (SR o TTS) non è disponibile o danneggiato. |
Definisce il codice di errore nel caso in cui CancellationReason sia Error. Aggiunta nella versione 1.1.0.
enum NoMatchReason
| Valori | Descrizioni |
|---|---|
| Non riconosciuto | Indica che il riconoscimento vocale è stato rilevato, ma non riconosciuto. |
| InitialSilenceTimeout | Indica che l'inizio del flusso audio conteneva solo il silenzio e il servizio si è verificato il timeout in attesa del parlato. |
| InitialBabbleTimeout | Indica che l'inizio del flusso audio conteneva solo rumore e che il servizio si è verificato il timeout in attesa del riconoscimento vocale. |
| KeywordNotRecognized | Indica che la parola chiave individuata è stata rifiutata dal servizio di verifica delle parole chiave. Aggiunta nella versione 1.5.0. |
| EndSilenceTimeout | Indica che il flusso audio conteneva solo il silenzio dopo l'ultima frase riconosciuta. |
Definisce i possibili motivi per cui un risultato di riconoscimento potrebbe non essere riconosciuto.
Enum ActivityJSONType
| Valori | Descrizioni |
|---|---|
| Nullo | |
| Oggetto | |
| Array | |
| Corda | |
| Doppio | |
| Utente | |
| int | |
| Booleano |
Definisce i tipi possibili per un valore JSON dell'attività. Aggiunta nella versione 1.5.0.
enumErazione SpeechSynthesisOutputFormat
| Valori | Descrizioni |
|---|---|
| Raw8Khz8BitMonoMULaw | grezzo-8khz-8bit-mono-mulaw |
| Riff16Khz16KbpsMonoSirena | riff-16khz-16kbps-mono-siren Non supportato dal servizio. Non usare questo valore. |
| Audio16Khz16KbpsMonoSiren | audio-16khz-16kbps-mono-siren Non supportato dal servizio. Non usare questo valore. |
| Audio16Khz32KBitRateMonoMp3 | audio-16khz-32kbitrate-mono-mp3 |
| Audio16Khz128KBitRateMonoMp3 | audio - impostazioni: 16 kHz, 128 kbit/s, mono, mp3 |
| Audio16Khz64KBitRateMonoMp3 | audio-16khz-64kbitrate-mono-mp3 |
| Audio24Khz48KBitRateMonoMp3 | audio-24khz-48kbitrate-mono-mp3 |
| Audio24Khz96KBitRateMonoMp3 | audio-24kHz-96kbitrate-mono-mp3 |
| Audio24Khz160KBitRateMonoMp3 | audio-24kHz-160kbit-mono-mp3 |
| grezzo16Khz16BitMonoTrueSilk | grezzo-16khz-16bit-mono-truesilk |
| Riff16Khz16BitMonoPcm | RIFF-16KHz-16bit-mono-PCM |
| Riff8Khz16BitMonoPcm | riff-8khz-16bit-mono-pcm |
| Riff24Khz16BitMonoPcm | RIFF-24kHz-16bit-mono-PCM |
| Riff8Khz8BitMonoMULaw | riff-8khz-8bit-mono-mulaw |
| grezzo16Khz16BitMonoPcm | grezzo-16khz-16bit-mono-pcm |
| grezzo24Khz16BitMonoPcm | grezzo-24kHz-16bit-mono-pcm |
| Raw8Khz16BitMonoPcm | grezzo-8kHz-16bit-mono-pcm |
| Ogg16Khz16BitMonoOpus | ogg-16khz-16bit-mono-opus |
| Ogg24Khz16BitMonoOpus | ogg-24khz-16bit-mono-opus |
| grezzo48Khz16BitMonoPcm | grezzo-48khz-16bit-mono-pcm |
| Riff48Khz16BitMonoPcm | riff - 48 Khz - 16 bit - mono - pcm |
| Audio48Khz96KBitRateMonoMp3 | audio-48khz-96kbitrate-mono-mp3 |
| Audio48Khz192KBitRateMonoMp3 | audio a 48 kHz, 192 kbps, mono, formato MP3 |
| Ogg48Khz16BitMonoOpus | ogg-48khz-16bit-mono-opus Aggiunta nella versione 1.16.0 |
| Webm16Khz16BitMonoOpus | webm-16khz-16bit-mono-opus Aggiunto nella versione 1.16.0 |
| Webm24Khz16BitMonoOpus | webm-24khz-16bit-mono-opus Aggiunto nella versione 1.16.0 |
| grezzo24Khz16BitMonoTrueSilk | raw-24khz-16bit-mono-truesilk Aggiunto nella versione 1.17.0 |
| Raw8Khz8BitMonoALaw | raw-8khz-8bit-mono-alaw Aggiunta nella versione 1.17.0 |
| Riff8Khz8BitMonoALaw | riff-8khz-8bit-mono-alaw Aggiunta nella versione 1.17.0 |
| Webm24Khz16Bit24KbpsMonoOpus | webm-24khz-16bit-24kbps-mono-opus Audio compresso da codec OPUS in un contenitore WebM, con velocità in bit di 24 kbps, ottimizzata per lo scenario IoT. Aggiunta nella versione 1.19.0 |
| Audio16Khz16Bit32KbpsMonoOpus | audio-16khz-16bit-32kbps-mono-opus Audio compresso da codec OPUS senza contenitore, con velocità in bit di 32 kbps. Aggiunta nella versione 1.20.0 |
| Audio24Khz16Bit48KbpsMonoOpus | audio-24khz-16bit-48kbps-mono-opus Audio compresso da codec OPUS senza contenitore, con velocità in bit di 48 kbps. Aggiunta nella versione 1.20.0 |
| Audio24Khz16Bit24KbpsMonoOpus | audio-24khz-16bit-24kbps-mono-opus Audio compresso da codec OPUS senza contenitore, con velocità in bit di 24 kbps. Aggiunta nella versione 1.20.0 |
| Raw22050Hz16BitMonoPcm | audio RAW-22050hz-16bit-mono-pcm Raw PCM a 22050Hz frequenza di campionamento e profondità a 16 bit. Aggiunta nella versione 1.22.0 |
| Riff22050Hz16BitMonoPcm | Audio PCM a 22050hz-16 bit-mono-pcm con frequenza di campionamento a 22050Hz e profondità a 16 bit, con intestazione RIFF. Aggiunta nella versione 1.22.0 |
| grezzo44100hz16bitmonopcm | audio RAW-44100hz-16bit-mono-pcm Raw PCM a 44100Hz frequenza di campionamento e profondità a 16 bit. Aggiunta nella versione 1.22.0 |
| Riff44100Hz16BitMonoPcm | audio PCM a 44100hz-16 bit-mono-pcm con frequenza di campionamento a 44100Hz e profondità a 16 bit, con intestazione RIFF. Aggiunta nella versione 1.22.0 |
| AmrWb16000Hz | amr-wb-16000hz AMR-WB audio a 16 kHz frequenza di campionamento. Aggiunta nella versione 1.24.0 |
| G72216Khz64Kbps | Audio g722-16khz-64 kbps G.722 con frequenza di campionamento a 16 kHz e velocità in bit di 64 kbps. Aggiunta nella versione 1.38.0 |
Definisce i possibili formati audio di output di sintesi vocale. Aggiornato nella versione 1.19.0.
enum StreamStatus
| Valori | Descrizioni |
|---|---|
| Sconosciuto | Lo stato del flusso di dati audio è sconosciuto. |
| NessunDato | Il flusso di dati audio non contiene dati. |
| Dati parziali | Il flusso di dati audio contiene dati parziali di una richiesta di pronuncia. |
| TuttiDati | Il flusso di dati audio contiene tutti i dati di una richiesta di pronuncia. |
| Annullato | Il flusso di dati audio è stato annullato. |
Definisce lo stato possibile del flusso di dati audio. Aggiunta nella versione 1.4.0.
enumErazione ServicePropertyChannel
| Valori | Descrizioni |
|---|---|
| Parametro UriQuery | Usa il parametro di query URI per passare le impostazioni delle proprietà al servizio. |
| Intestazione HTTP | Usa HttpHeader per impostare una chiave/valore in un'intestazione HTTP. |
Definisce i canali usati per passare le impostazioni delle proprietà al servizio. Aggiunta nella versione 1.5.0.
EnumRiconoscimentoFattoreAmbito
| Valori | Descrizioni |
|---|---|
| Frase parziale | Un fattore di riconoscimento verrà applicato alle grammatiche a cui è possibile fare riferimento come singole frasi parziali. |
Definisce l'ambito a cui viene applicato un fattore di riconoscimento.
enum PronunciaValutazioneSistema di Classificazione
| Valori | Descrizioni |
|---|---|
| Cinque punti | Calibrazione a cinque punti. |
| Centesimo Marchio | Cento contrassegni. |
Definisce il sistema di punti per la calibrazione del punteggio di pronuncia; il valore predefinito è FivePoint. Aggiunta nella versione 1.14.0.
enum PronunciaValutazioneGranularità
| Valori | Descrizioni |
|---|---|
| Fonema | Mostra il punteggio sul livello full-text, word e phoneme. |
| Parola | Mostra il punteggio a livello di testo completo e parola. |
| Testo completo | Mostra il punteggio solo a livello full-text. |
Definisce la granularità della valutazione della pronuncia; il valore predefinito è Phoneme. Aggiunta nella versione 1.14.0.
enum SynthesisVoiceType
| Valori | Descrizioni |
|---|---|
| OnlineNeural | Voce neurale online. |
| OnlineStandard | Voce standard online. |
| OfflineNeural | Voce neurale offline. |
| OfflineStandard | Voce standard offline. |
Definisce il tipo di voci di sintesi aggiunte nella versione 1.16.0.
enum SintesiVoceGenere
| Valori | Descrizioni |
|---|---|
| Sconosciuto | Sesso sconosciuto. |
| Femmina | Voce femminile. |
| Maschio | Voce maschile. |
| Neutra | Voce neutra. |
Definisce il sesso delle voci di sintesi aggiunte nella versione 1.17.0.
enum SintesiVoceStato
| Valori | Descrizioni |
|---|---|
| Sconosciuto | Stato vocale sconosciuto. |
| Disponibilità generale | La voce è disponibile a livello generale. |
| Anteprima | La voce è in anteprima. |
| Deprecato | La voce è deprecata, non usare. |
Definisce lo stato delle voci di sintesi.
enumErazione SpeechSynthesisBoundaryType
| Valori | Descrizioni |
|---|---|
| Parola | Limite di parola. |
| Punteggiatura | Limite di punteggiatura. |
| Frase | Limite di frase. |
Definisce il tipo di limite dell'evento limite di sintesi vocale Aggiunto nella versione 1.21.0.
StrategiaSegmentazione enum
| Valori | Descrizioni |
|---|---|
| Predefinito | Usare la strategia e le impostazioni predefinite come determinato dal servizio Voce. Usare nella maggior parte dei casi. |
| Ore | Usa una strategia basata sul tempo in cui viene usata la quantità di silenzio tra il parlato per determinare quando generare un risultato finale. |
| Semantico | Usa un modello di intelligenza artificiale per scoraggiare la fine di una frase pronunciata in base al contenuto della frase. |
La strategia usata per determinare quando una frase pronunciata è terminata e deve essere generato un risultato riconosciuto finale. I valori consentiti sono "Default", "Time" e "Semantic".