Come i microfoni MEMS agevolano il rilevamento del suono e il riconoscimento delle parole chiave nei progetti ad attivazione vocale
Contributo di Editori nordamericani di DigiKey
2020-04-23
L'uso della voce come interfaccia utente è sempre più diffuso. Di conseguenza ai progettisti si chiede di implementare interfacce utente vocali (VUI) più accurate e affidabili ma a basso consumo e con veloce tempo di risposta. Oltre a ciò, devono rispettare vincoli di spazio e di costi più restrittivi e tempi di progettazione sempre più brevi. Per aiutarli a raggiungere questi obiettivi, diversi fornitori hanno introdotto microfoni basati su dispositivi microelettromeccanici (MEMS) avanzati le cui caratteristiche prestazionali favoriscono il rilevamento affidabile delle parole di attivazione e l'elaborazione di comandi vocali per le VUI.
I microfoni MEMS - noti anche come microfoni al silicio - sono già molto diffusi negli smartphone, negli smartwatch, negli auricolari wireless, nelle auto e nelle smart TV e nei telecomandi. Questa popolarità è dovuta in gran parte al successo di assistenti personali vocali come Alexa di Amazon, Assistente Google e Siri di Apple che recepiscono specifici comandi vocali e li estraggono dall'ambiente circostante utilizzando algoritmi di rilevamento delle parole di attivazione. Il trucco sta nell'implementare questa funzione di estrazione in modo rapido ed economico, migliorando al contempo l'affidabilità, la precisione e l'acquisizione vocale far-field nonostante il rumore ambientale.
Questo articolo prende in esame le caratteristiche chiave dei microfoni MEMS che influenzano la progettazione di una VUI, incluso il rapporto segnale/rumore (SNR), la gamma dinamica, la sensibilità e il tempo di avvio. Presenta poi le soluzioni hardware e software di TDK InvenSense, CUI Devices, STMicroelectronics e Vesper Technologies e mostra come applicarle nei progetti ad attivazione vocale.
Come funzionano i microfoni MEMS
I microfoni MEMS sono costituiti in genere da due componenti in un unico contenitore: una membrana MEMS che converte le onde sonore in un segnale elettrico e un amplificatore che funziona come convertitore di impedenza per fornire un'uscita analogica utilizzabile alla catena di segnali audio. Se è richiesta un'uscita digitale, sullo stesso die è possibile integrare anche un terzo componente: un convertitore analogico/digitale (ADC).
Figura 1: La configurazione base di un microfono MEMS con i due componenti fondamentali: il trasduttore MEMS e la catena di elaborazione dei segnali (nell'ASIC). (Immagine per gentile concessione di CUI Devices)
Oltre a permettere che i microfoni miniaturizzati abbiano uscite analogiche o digitali, la tecnologia MEMS offre buone prestazioni anche in termini di corrispondenza di fase e deriva.
Caratteristiche principali del microfono MEMS
Per i progettisti di dispositivi a controllo vocale, i parametri principali a cui prestare attenzione in un microfono MEMS includono:
- Rapporto segnale/rumore (SNR): si tratta del rapporto tra il livello del segnale di riferimento e il livello di rumore del segnale di uscita del microfono. Le misurazioni SNR includono il rumore sviluppato sia dal microfono che da qualsiasi altro dispositivo, come i circuiti integrati, incorporato nel contenitore del microfonico MEMS.
- Sensibilità: il valore di uscita analogica o digitale in risposta a un'onda sinusoidale di 1 kHz con un livello di pressione sonora (SPL) di 94 dB o 1 Pa, una misura della pressione.
- Tolleranza di sensibilità: l'intervallo di sensibilità per ogni singolo microfono. Una stretta tolleranza di sensibilità assicura l'omogeneità quando si utilizzano più microfoni.
- Gamma dinamica: differenza tra gli SPL più rumorosi e quelli più silenziosi su cui il microfono risponde linearmente.
- Risposta in frequenza: il campo di udibilità su cui può operare un microfono.
- Tempo di avvio: la velocità con cui un microfono si riattiva ed emette un segnale valido in risposta a un evento trigger.
I dispositivi a controllo vocale come i telecomandi, i televisori e gli altoparlanti intelligenti spesso operano con un elevato rumore ambientale. Inoltre, nelle operazioni far-field un utente potrebbe trovarsi sia molto vicino che a una distanza tra uno e dieci metri. Sono queste circostanze a rendere così importanti la gamma dinamica, la sensibilità e l'SNR di un microfono. Nelle applicazioni in cui si devono utilizzare più microfoni in un array, la tolleranza di sensibilità diventa un fattore cruciale.
Anche se si può specificare un certo livello di sensibilità per ogni microfono, cambiamenti strutturali anche minimi possono causare delle variazioni. Tuttavia, dato che i microfoni MEMS vengono sviluppati utilizzando processi di produzione di semiconduttori controllati in modo rigoroso, offrono la stretta corrispondenza delle tolleranze di sensibilità necessaria per elaborare in modo efficiente il segnale di un array di microfoni (Figura 2).
Figura 2: I microfoni usati in un array devono essere abbinati in modo rigoroso per ottenere le prestazioni desiderate di elaborazione dei segnali. (Immagine per gentile concessione di CUI Devices)
Dato l'uso sempre più frequente di array di microfoni nei progetti abilitati per VUI, questa stretta tolleranza è fondamentale. In un array di microfoni, due o più microfoni vengono utilizzati per raccogliere i segnali, dopo di che il segnale di ognuno di essi viene elaborato - amplificato, ritardato o filtrato - individualmente prima di venire combinato con tutti gli altri per formare il segnale risultante. Negli array di microfoni, gli ingressi multipli possono essere utilizzati per creare una risposta direzionale, nota anche come beamforming, per filtrare i rumori indesiderati e concentrarsi sul suono proveniente dalla direzione desiderata.
Il tempo di avvio di un microfono MEMS è critico anche per l'acquisizione di intere parole chiave e per assicurarne la precisione. Per risparmiare energia, i dispositivi abilitati per VUI sono mantenuti in uno stato di basso consumo; ma se il tempo di avvio del microfono in risposta a un trigger di riattivazione è breve, influisce sul tempo di riattivazione della VUI, che a sua volta influisce sulle prestazioni di rilevamento delle parole di attivazione e sul consumo energetico.
Una volta scelto un microfono tenendo conto di queste caratteristiche, i successivi algoritmi di elaborazione vocale possono migliorare l'estrazione della voce dell'utente in presenza di un elevato rumore ambientale o di utenti che parlano a distanza, o di entrambe le cose.
Interfacce di microfoni MEMS analogiche e digitali a confronto
Come anticipato nella sezione sul funzionamento dei microfoni MEMS, la loro uscita può essere sia analogica che digitale. I microfoni MEMS analogici utilizzano un amplificatore interno per pilotare il loro segnale di uscita a un livello ragionevolmente alto con bassa impedenza di uscita. Ciò fornisce un'interfaccia diretta con il processore audio. Per le VUI, il progettista deve assicurarsi che il processore abbia un ADC integrato, oppure può selezionare un ADC per soddisfare i propri requisiti specifici. Nel secondo caso, complessità e costi potrebbero aumentare.
Con un microfono MEMS digitale, la sua uscita può essere applicata direttamente a un circuito digitale, in genere un microcontroller o un processore di segnali digitali (DSP). I progetti di VUI per ambienti elettricamente rumorosi tendono a favorire i microfoni digitali perché i segnali di uscita digitali hanno una maggiore immunità al rumore rispetto a quelli analogici.
Inoltre, i microfoni MEMS digitali utilizzano comunemente la modulazione di densità di impulso (PDM) per convertire la tensione del segnale analogico in un flusso digitale a bit singolo che contiene una corrispondente densità di segnali logici elevati. Ciò fornisce un'ulteriore immunità alle interferenze in radiofrequenza (RFI) e a quelle elettromagnetiche (EMI). Questo è particolarmente importante in grandi array di microfoni e in sistemi fisicamente grandi come quelli a controllo vocale di infotainment per veicoli.
Per quanto riguarda la sensibilità, nei microfoni analogici viene misurata in livello di pressione sonora in decibel riferita a 1 volt (dB/V). Per i microfoni digitali, in genere viene misurata in decibel rispetto al fondo scala (dB FS).
Soluzioni di microfoni MEMS per VUI
Il microfono MEMS analogico ICS-40740 di TDK InvenSense risponde a molti dei requisiti prestazionali indispensabili dei microfoni per applicazioni VUI. Comprende un microfono MEMS, un convertitore di impedenza e un amplificatore di uscita differenziale in un piccolo contenitore di 4,00x3,00x1,20 mm a montaggio superficiale. Opera con un'alimentazione da 1,5 volt che assorbe solo 165 µA quando è in funzione (Figura 3).
Figura 3: Il microfono MEMS analogico ICS-40740 risponde ai requisiti di consumo e dimensionali degli altoparlanti intelligenti e di dispositivi indossabili come le cuffie a cancellazione del rumore. (Immagine per gentile concessione di TDK InvenSense)
Ha un SNR di 70 dBA (decibel ponderati A) e un'ampia gamma dinamica di 108,5 dB che permette di rilevare le voci malgrado l'elevato rumore ambientale e in condizioni far-field. Ha anche un'ampia risposta in frequenza operativa che va da 80 Hz a 20 kHz, una risposta lineare di 132,5 dB e una tolleranza di sensibilità di ±1 dB. Quest'ultima caratteristica lo rende molto utile per gli array di microfoni.
L'ingombro compatto e il basso consumo energetico di ICS-40740 lo rendono adatto per applicazioni Internet delle cose (IoT) realizzate attorno ad altoparlanti intelligenti e dispositivi indossabili come le cuffie a cancellazione del rumore.
VM3000 di Vesper Technologies è un microfono MEMS piezoelettrico digitale con porta alla base e omnidirezionale, con un tempo di avvio ultraveloce di meno di 200 µs che gli permette di riattivarsi abbastanza velocemente da catturare parole di attivazione complete (Figura 4).
Figura 4: Il microfono MEMS digitale piezoelettrico VM3000 ha un tempo di avvio ultraveloce di meno di 200 µs che gli permette di riattivarsi abbastanza velocemente da catturare parole di attivazione complete. (Immagine per gentile concessione di Vesper Technologies)
In un microfono MEMS piezoelettrico, quando un'onda sonora colpisce la membrana elastica piezoelettrica, la sposta e crea una tensione. Tale tensione viene rilevata da un circuito comparatore a bassissimo consumo che invia un segnale di attivazione al sistema audio.
Dato che i microfoni MEMS piezoelettrici non richiedono una tensione di polarizzazione, VM3000 ha un consumo energetico praticamente nullo fino all'accensione tramite un comando con parola di attivazione. Inoltre, può rimanere in modalità di sospensione durante la quale assorbe solo 0,35 µA e può passare alla modalità attiva in meno di 100 µs. La modalità di sospensione a bassissimo consumo, combinata con la commutazione rapida, assicura inoltre che nessuna informazione vada perduta alla riattivazione del dispositivo audio.
Il microfono digitale VM3000 può essere accoppiato praticamente con qualsiasi chip audio e la sua uscita è caratterizzata dal multiplexing di due microfoni su una singola linea dati. Raggiunge un SNR tipico di 63 dB con un segnale di 1 kHz e offre un punto di sovraccarico acustico (AOP) di 122 dB SPL.
VM3000 è racchiuso in un contenitore di 3,5x2,65x1,3 mm e, integrando un ADC, permette di risparmiare sulla distinta base. Inoltre, VM3000 utilizza un cristallo piezoelettrico monostrato che lo rende immune alle derive di sensibilità e lo protegge da polvere, acqua, umidità e altre particelle ambientali.
I microfoni MEMS piezoelettrici come VM3000 semplificano anche la progettazione audio per gli array, evitando la necessità di una rete o di una membrana protettiva per coprire più microfoni. Questa rete o membrana, che è tipicamente attaccata alla porta acustica come elemento di protezione contro le contaminazioni ambientali, può portare a una caduta di sensibilità del microfono MEMS.
VM3000 è anche relativamente facile da implementare in quanto può collegarsi direttamente a un CODEC o a un altro processore (Figura 5). Il sistema master (CODEC, ecc.) fornisce il master clock, CLK, che definisce la velocità di trasmissione dei bit sulla linea DATA.
Figura 5: VM3000 può essere collegato direttamente a un processore esterno e collegare due microfoni a una singola linea DATA. (Immagine per gentile concessione di Vesper Technologies)
È interessante notare che si possono collegare due microfoni su un'unica linea DATA. Questo perché i dati sono impostati sul fronte di salita o di discesa del clock (CLK), definito dal pin L/R Select, con L/R Select = dati di impostazione GND (in alto) sul fronte di discesa e L/R Select = dati di impostazione VDD (in basso) sul fronte di salita. Il CODEC o il processore può quindi separare i bitstream in base al loro allineamento con i fronti CLK.
Come iniziare: kit di valutazione di microfoni MEMS
Per valutare i parametri chiave e semplificare la progettazione di sistemi audio con microfoni MEMS, i fornitori mettono a disposizione schede di riferimento e kit di sviluppo software. Ad esempio, Vesper offre la scheda di valutazione S-VM3000-C che comprende un microfono MEMS digitale VM3000 e un condensatore di bypass di alimentazione da 0,1 µF, oltre a un connettore edge.
Analogamente, per i suoi sensori MEMS analogici ICS-40740, TDK InvenSense offre la scheda di valutazione EV_ICS-40740-FX che permette ai progettisti di analizzare le prestazioni di diversi microfoni con uscita analogica in modo rapido ed efficiente. A parte il microfono MEMS, l'unico altro componente di questo kit di sviluppo è un condensatore di bypass di alimentazione da 0,1 µF.
CUI Devices, che offre microfoni MEMS sia digitali che analogici, fornisce il kit di sviluppo DEVKIT-MEMS-001 per la prototipazione e il test del progetto (Figura 6). Questa scheda di valutazione è dotata di quattro circuiti di valutazione dei microfoni indipendenti.
Figura 6: DEVKIT-MEMS-001 ha quattro circuiti di valutazione dei microfoni staccabili: due per le uscite analogiche e due per quelle digitali. (Immagine per gentile concessione di CUI Devices)
La scheda ha due microfoni MEMS analogici: CMM-2718AB-38308-TR sulla porta inferiore e CMM-2718AT-42308-TR su quella superiore e due microfoni MEMS digitali, CMM-4030DB-26354-TR sulla porta inferiore e CMM-4030DT-26354-TR su quella superiore. Per offrire una maggiore flessibilità di progettazione, le opzioni della porta audio superiore e inferiore sono disponibili sia per i microfoni con uscita analogica che per quelli con uscita digitale.
Mettendo a confronto i due dispositivi analogici, CMM-2718AB-38308-TR ha una sensibilità di -38 dB e un SNR di 65 dBA. CM-2718AT-43208-TR ha una sensibilità di -42 dB e un SNR di 60 dBA. Entrambi hanno un campo di frequenza da 100 Hz a 10 kHz e assorbono 80 µA da un rail di alimentazione a 2 volt.
Per quanto riguarda i due microfoni digitali, CMM-4030DB-26354-TR ha una sensibilità di -26 dB FS e un SNR di 64 dBA. CMM-4030DT-26354-TR ha una sensibilità di -26 dB FS e un SNR di 65 dBA. Entrambi usano un formato dati PDM a 1 bit, operano su un campo di frequenza da 100 Hz a 10 kHz e assorbono 0,54 mA da un'alimentazione di 2 V.
Conclusione
Uno sguardo più attento ai microfoni MEMS - sia analogici che digitali - mostra i loro vantaggi prestazionali a livello di sistema e come fanno da complemento ai progetti di interfaccia vocale sempre attiva. I microfoni MEMS di ultima generazione adottano nuove tecnologie per estendere la durata della batteria, migliorare la qualità audio far-field e resistere ai contaminanti ambientali. Il miglioramento della precisione di acquisizione delle parole chiave è un'altra importante considerazione progettuale, strettamente legata a parametri quali SNR, tolleranza di sensibilità e tempo di avvio, tutti aspetti che vengono affrontati nei dispositivi più recenti per meglio rispondere ai progetti VUI.
Esonero della responsabilità: le opinioni, le convinzioni e i punti di vista espressi dai vari autori e/o dai partecipanti al forum su questo sito Web non riflettono necessariamente le opinioni, le convinzioni e i punti di vista di DigiKey o le sue politiche.




