Wie MEMS-Mikrofone die Tonerkennung und Schlüsselworterkennung in sprachaktivierten Designs unterstützen

Von Majeed Ahmad

Zur Verfügung gestellt von Nordamerikanische Fachredakteure von DigiKey

Da die Benutzer immer mehr auf Sprache als Benutzerschnittstelle angewiesen sind, stehen die Designer vor der Herausforderung, die genauesten und zuverlässigsten Sprach-Benutzeroberflächen (VUIs) mit dem geringstmöglichen Stromverbrauch und der geringstmöglichen Reaktionszeit zu implementieren und dabei gleichzeitig die knapper werdenden Platz- und Kostenbudgets und die immer kürzer werdenden Design-Zeitpläne einzuhalten. Um den Konstrukteuren zu helfen, diese Ziele zu erreichen, haben mehrere Hersteller fortschrittliche Mikrofone für mikroelektromechanische Systeme (MEMS) mit Leistungsmerkmalen eingeführt, die einer robusten Wake-Word-Erkennung und der Verarbeitung von Sprachbefehlen für VUIs förderlich sind.

MEMS-Mikrofone - auch bekannt als Silizium-Mikrofone - sind bereits in Smartphones, Smart-Uhren, drahtlosen Ohrhörern, Autos und Smart-Fernsehern sowie in Fernbedienungen beliebt. Dies ist zum großen Teil auf den Erfolg sprachbasierter persönlicher Assistenten wie Alexa von Amazon, Google Assistant und Siri von Apple zurückzuführen. Diese Assistenten hören auf bestimmte Sprachbefehle und extrahieren sie mit Hilfe von Algorithmen zur Erkennung von Weckwörtern aus der Umgebung. Der Trick für Konstrukteure besteht darin, diese Extraktionsfunktion schnell und kostengünstig zu implementieren und gleichzeitig die Zuverlässigkeit, Genauigkeit und Fernfeld-Spracherfassung trotz Umgebungsgeräuschen zu verbessern.

In diesem Artikel werden die wichtigsten Eigenschaften von MEMS-Mikrofonen erörtert, die sich auf ein VUI-Design auswirken, einschließlich Signal-Rauschabstand (SNR), Dynamikbereich, Empfindlichkeit und Startzeit. Anschließend werden Hardware- und Softwarelösungen von TDK InvenSense, CUI Devices, STMicroelectronics, und Vesper Technologies vorgestellt und gezeigt, wie sie in sprachaktivierten Designs angewendet werden können.

Wie MEMS-Mikrofone funktionieren

MEMS-Mikrofone bestehen typischerweise aus zwei Komponenten in einem einzigen Gehäuse: einer MEMS-Membran, die Schallwellen in ein elektrisches Signal umwandelt, und einem Verstärker, der als Impedanzwandler fungiert, um einen nutzbaren analogen Ausgang für die Audiosignalkette bereitzustellen. Eine dritte Komponente, ein Analog-Digital-Wandler (ADC), kann ebenfalls auf demselben Chip integriert werden, wenn ein digitaler Ausgang erforderlich ist.

Schema der Grundkonstruktion eines MEMS-MikrofonsAbbildung 1: Der Grundaufbau eines MEMS-Mikrofons mit seinen zwei Hauptbausteinen: dem MEMS-Wandler und der Signalverarbeitungskette (im ASIC). (Bildquelle: CUI Devices)

Neben der Ermöglichung von Miniaturmikrofonen mit analogen oder digitalen Ausgängen bietet die MEMS-Technologie auch eine gute Leistung in Bezug auf Phasenanpassung und Drift.

Hauptmerkmale von MEMS-Mikrofonen

Für Entwickler von sprachgesteuerten Geräten gehören zu den wichtigsten Parametern, nach denen in einem MEMS-Mikrofon gesucht werden muss:

  • Signal-Rausch-Verhältnis (SNR): Dies ist das Verhältnis eines Referenzsignalpegels zum Rauschpegel des Mikrofonausgangssignals. SNR-Messungen umfassen das Rauschen, das sowohl vom Mikrofonelement als auch von anderen Geräten, wie z.B. ICs, die in das MEMS-Mikrofonpaket integriert sind, verursacht wird.
  • Empfindlichkeit: Der analoge oder digitale Ausgangswert als Reaktion auf eine Sinuswelle von 1 Kilohertz (kHz) mit einem Schalldruckpegel (SPL) von 94 Dezibel (dB) oder 1 Pascal (Pa), eine Druckmessung.
  • Empfindlichkeitstoleranz: Der Bereich der Empfindlichkeit für jedes einzelne Mikrofon. Eine enge Empfindlichkeitstoleranz gewährleistet Konsistenz, wenn mehrere Mikrofone verwendet werden.
  • Dynamischer Bereich: Ein Maß für die Differenz zwischen den lautesten und leisesten SPLs, über die das Mikrofon linear reagiert.
  • Frequenzbereich: Der Audiobereich, über den ein Mikrofon arbeiten kann.
  • Startzeit: Wie schnell ein Mikrofon aufwacht und als Reaktion auf ein Triggerereignis ein gültiges Signal ausgibt.

Sprachgesteuerte Geräte wie Fernbedienungen, Fernseher und intelligente Lautsprecher arbeiten oft mit hohen Umgebungsgeräuschen. Außerdem kann sich ein Anwender bei Fernfeldoperationen in der Nähe oder in einer Entfernung von einem bis 10 Metern (m) befinden. Diese Umstände sind es, die den Dynamikbereich, die Empfindlichkeit und den SNR eines Mikrofons so wichtig machen. Bei Anwendungen, bei denen mehrere Mikrofone in einem Array verwendet werden sollen, wird die Empfindlichkeitstoleranz kritisch.

Zwar kann für jedes Mikrofon eine bestimmte Empfindlichkeitsstufe festgelegt werden, doch können kleinste strukturelle Veränderungen Abweichungen verursachen. Da MEMS-Mikrofone jedoch unter Verwendung streng kontrollierter Halbleiter-Fertigungsprozesse entwickelt werden, bieten sie die eng angepassten Empfindlichkeitstoleranzen, die für eine effektive Signalverarbeitung eines Arrays von Mikrofonen erforderlich sind (Abbildung 2).

Diagramm der in einem Array verwendeten MikrofoneAbbildung 2: In einem Array verwendete Mikrofone müssen eng aufeinander abgestimmt sein, um die gewünschte Signalverarbeitungsleistung zu erreichen. (Bildquelle: CUI Devices)

Diese enge Toleranz ist angesichts der zunehmenden Verbreitung von Mikrofon-Arrays in VUI-fähigen Designs von entscheidender Bedeutung. In einem Mikrofonarray werden zwei oder mehr Mikrofone zum Sammeln von Signalen verwendet, und dann wird das Signal von jedem Mikrofon einzeln verarbeitet - verstärkt, verzögert oder gefiltert - bevor die Signale zum resultierenden Signal kombiniert werden. In Mikrofon-Arrays können die mehreren Eingänge verwendet werden, um eine Richtcharakteristik zu erzeugen, die auch als Beamforming bezeichnet wird, um unerwünschte Geräusche herauszufiltern und gleichzeitig den Schall aus einer gewünschten Richtung zu fokussieren.

Die Startzeit eines MEMS-Mikrofons ist auch im Hinblick auf die Erfassung ganzer Stichwörter und die Gewährleistung der Stichwortgenauigkeit von entscheidender Bedeutung. Um Strom zu sparen, werden VUI-fähige Geräte in einem Stromsparzustand gehalten; wenn jedoch die Startzeit des Mikrofons als Reaktion auf einen Wake-up-Trigger kurz ist, wirkt sich dies auf die VUI-Wake-up-Zeit aus, was sich wiederum auf die Leistung der Wake-Word-Erkennung sowie auf den Stromverbrauch auswirkt.

Sobald ein Mikrofon unter Berücksichtigung dieser Eigenschaften ausgewählt wurde, können nachfolgende Sprachverarbeitungsalgorithmen die Stimmenextraktion des Benutzers bei hohen Umgebungsgeräuschen oder bei Benutzern, die aus der Entfernung sprechen, oder bei beidem besser durchführen.

Analoge versus digitale MEMS-Mikrofon-Schnittstellen

Wie bereits im Abschnitt über die Funktionsweise von MEMS-Mikrofonen erwähnt, kann die Ausgabe eines MEMS-Mikrofons entweder analog oder digital sein. Analoge MEMS-Mikrofone verwenden einen internen Verstärker, um das Ausgangssignal des Mikrofons auf einen angemessen hohen Pegel mit niedriger Ausgangsimpedanz zu treiben. Dies bietet eine unkomplizierte Schnittstelle zum Audioprozessor. Bei VUIs muss der Konstrukteur sicherstellen, dass der zugehörige Prozessor über einen On-Board-ADC verfügt, oder der Konstrukteur kann einen ADC auswählen, der seinen spezifischen Anforderungen entspricht. Im letzteren Fall kann dies die Komplexität und die Kosten erhöhen.

Bei einem digitalen MEMS-Mikrofon kann der Mikrofonausgang direkt an eine digitale Schaltung, typischerweise einen Mikrocontroller oder einen digitalen Signalprozessor (DSP), angeschlossen werden. VUI-Designs für elektrisch verrauschte Umgebungen neigen dazu, digitale Mikrofone zu bevorzugen, da digitale Ausgangssignale im Vergleich zu analogen Ausgangssignalen eine größere Rauschunempfindlichkeit aufweisen.

Darüber hinaus verwenden digitale MEMS-Mikrofone üblicherweise die Pulsdichtemodulation (PDM), um die analoge Signalspannung in einen digitalen Ein-Bit-Strom umzuwandeln, der eine entsprechende Dichte von logisch hohen Signalen enthält. Dies sorgt für eine weitere Immunität gegen Radiofrequenz-Interferenz (RFI) und elektromagnetische Interferenz (EMI). Dies ist besonders wichtig bei großen Mikrofon-Arrays und physisch großen Systemen wie sprachgesteuerten Fahrzeug-Infotainmentsystemen.

Hinsichtlich der Empfindlichkeit wird sie bei analogen Mikrofonen als Schalldruckpegel in Dezibel bezogen auf 1 Volt (dB/V) gemessen. Bei digitalen Mikrofonen wird sie typischerweise als Dezibel in Bezug auf den Vollausbau (dB FS) gemessen.

MEMS-Mikrofonlösungen für VUIs

Das analoge MEMS-Mikrofon ICS-40740 von TDK InvenSense erfüllt viele kritische Leistungsanforderungen an Mikrofone für VUI-Anwendungen. Es besteht aus einem MEMS-Mikrofonelement, einem Impedanzwandler und einem Differenzausgangsverstärker in einem kleinen 4,00 x 3,00 x 1,20 Millimeter (mm) großen oberflächenmontierbaren Gehäuse. Er wird mit einer 1,5-Volt-Versorgung betrieben, die im Betrieb nur 165 Mikroampere (µA) verbraucht (Abbildung 3).

Bild des analogen MEMS-Mikrofons InvenSense ICS-40740Abbildung 3: Das analoge MEMS-Mikrofon ICS-40740 eignet sich sowohl für die Größe und das Leistungsbudget von intelligenten Lautsprechern als auch für tragbare Geräte wie geräuschunterdrückende Headsets. (Bildquelle: TDK InvenSense)

Er hat einen SNR von 70 dBA (A-bewertete Dezibel) und koppelt diesen mit einem weiten Dynamikbereich von 108,5 dB, so dass Stimmen trotz hoher Umgebungsgeräusche und unter Fernfeldbedingungen erkannt werden können. Es hat außerdem einen breiten Betriebsfrequenzgang von 80 Hertz (Hz) bis 20 kHz, einen linearen Frequenzgang von 132,5 dB und eine Empfindlichkeitstoleranz von ±1 dB. Letzteres macht es für Mikrofon-Arrays sehr nützlich.

Der ICS-40740 eignet sich aufgrund seines geringen Platzbedarfs und des geringen Stromverbrauchs für Internet of Things (IoT)-Anwendungen, die auf intelligenten Lautsprechern und tragbaren Geräten wie geräuschunterdrückenden Headsets basieren.

Vesper Technologies' VM3000 ist ein omnidirektionales, digitales piezoelektrisches MEMS-Mikrofon mit unterem Port, das sich durch eine ultraschnelle Startzeit von weniger als 200 Mikrosekunden (µs) auszeichnet, wodurch es schnell genug aufwachen kann, um vollständige Wake-Words zu erfassen (Abbildung 4).

Bild des piezoelektrischen digitalen MEMS-Mikrofons Vesper VM3000Abbildung 4: Das piezoelektrische digitale MEMS-Mikrofon VM3000 zeichnet sich durch eine ultraschnelle Startzeit von weniger als 200 µs aus, so dass es schnell genug aufwacht, um komplette Wake-Words zu erfassen. (Bildquelle: Vesper Technologies)

Wenn in einem piezoelektrischen MEMS-Mikrofon eine Schallwelle auf den piezoelektrischen Cantilever trifft, bewegt sie den Cantilever und erzeugt eine Spannung. Diese Spannung wird von einer Komparatorschaltung mit sehr geringer Leistung erfasst, die ein Wake-Signal an das Audiosystem sendet.

Da piezoelektrische MEMS-Mikrofone keine Vorspannung benötigen, verbraucht das VM3000 praktisch keinen Strom, bis es über einen Wake-Word-Befehl eingeschaltet wird. Außerdem kann er im Schlafmodus bleiben, während er nur 0,35 µA zieht, und kann in weniger als 100 µs in den Leistungsmodus wechseln. Der Ultra-Low-Power-Schlafmodus sorgt in Kombination mit einem schnellen Moduswechsel auch dafür, dass beim Aufwachen des Audiogeräts keine Informationen verloren gehen.

Das digitale Mikrofon VM3000 kann mit praktisch jedem Audio-Chip gepaart werden, und sein Ausgang ermöglicht das Multiplexen von zwei Mikrofonen auf einer einzigen Datenleitung. Er erreicht einen typischen SNR von 63 dB bei einem 1 kHz-Signal und bietet einen akustischen Übersteuerungspunkt (AOP) von 122 dB SPL.

Das VM3000 wird in einem Gehäuse mit den Abmessungen 3,5 x 2,65 x 1,3 mm geliefert und spart durch die Integration eines ADC die Stückliste (BOM) ein. Zusätzlich verwendet der VM3000 einen einlagigen piezoelektrischen Kristall, der ihn immun gegen Empfindlichkeitsdriften macht und ihn vor Staub, Wasser, Feuchtigkeit und anderen Umweltpartikeln schützt.

Piezoelektrische MEMS-Mikrofone wie das VM3000 vereinfachen auch das Audiodesign für Arrays, da kein Schutzgitter oder keine Membran zur Abdeckung mehrerer Mikrofone erforderlich ist. Ein solches Netz oder eine solche Membran, die typischerweise als Schutzelement gegen Umweltkontaminationen an der Schallöffnung angebracht wird, kann zu einem Abfall der Empfindlichkeit des MEMS-Mikrofons führen.

Der VM3000 ist auch relativ einfach zu implementieren, da er direkt an einen CODEC oder einen anderen Prozessor angeschlossen werden kann (Abbildung 5). Das Master-System (CODEC usw.) stellt den Master-Takt, CLK, zur Verfügung, der die Rate definiert, mit der die Bits auf der DATA-Leitung übertragen werden.

Das Diagramm des Vesper VM3000 kann direkt an einen externen Prozessor angeschlossen werdenAbbildung 5: Das VM3000 kann direkt an einen externen Prozessor angeschlossen werden und kann zwei Mikrofone an eine einzige DATA-Leitung anschließen. (Bildquelle: Vesper Technologies)

Interessant ist, dass zwei Mikrofone über eine einzige DATA-Leitung angeschlossen werden können. Der Grund dafür ist, dass die Daten auf die steigende oder fallende Flanke des Taktgebers (CLK) gesetzt werden, die durch den L/R Select-Pin definiert wird, wobei L/R Select = GND (oben) Einstelldaten auf die fallende Flanke und L/R Select = VDD (unten) Einstelldaten auf die steigende Flanke setzt. Der CODEC oder Prozessor kann dann die Bitströme auf der Grundlage ihrer Ausrichtung an den CLK-Kanten trennen.

Erste Schritte: MEMS-Mikrofon-Evaluierungskits

Um wichtige Parameter zu evaluieren und das Design von Audiosystemen mit MEMS-Mikrofonen zu vereinfachen, stellen Anbieter Referenzboards und Software-Entwicklungskits zur Verfügung. Zum Beispiel bietet Vesper das S-VM3000-C Evaluierungsboard an, das ein digitales MEMS-Mikrofon VM3000 und einen 0,1 Mikrofarad (µF) Überbrückungskondensator für die Stromversorgung sowie einen Randsteckverbinder umfasst.

Ebenso stellt TDK InvenSense für seine analogen MEMS-Sensoren ICS-40740 das EV_ICS-40740-FX Evaluierungsboard zur Verfügung, mit dem Entwickler die Leistung von Mikrofonen mit analogem Differenzausgang schnell und effizient analysieren können. Abgesehen vom MEMS-Mikrofon ist das einzige weitere Bauteil dieses Entwicklungskits ein Bypass-Kondensator mit einer Versorgungsspannung von 0,1 µF.

CUI Devices, die sowohl analoge als auch digitale MEMS-Mikrofone anbietet, stellt das DEVKIT-MEMS-001 Entwicklungskit für Design-Prototyping und Tests zur Verfügung (Abbildung 6). Dieses Evaluierungsboard verfügt über vier unabhängige Mikrofon-Evaluierungsschaltungen.

Abbildung der Entwicklungsplatine DEVKIT-MEMS-001 von CUI DevicesAbbildung 6: Das DEVKIT-MEMS-001 verfügt über vier abnehmbare Mikrofonauswerteschaltungen: zwei für analoge und zwei für digitale Ausgänge. (Bildquelle: CUI Devices)

Die Karte verfügt über zwei analoge MEMS-Mikrofone: den unteren Anschluss CMM-2718AB-38308-TR und den oberen Anschluss CMM-2718AT-42308-TR; und zwei digitale MEMS-Mikrofone, den unteren Anschluss CMM-4030DB-26354-TR und den oberen Anschluss CMM-4030DT-26354-TR. Die oberen und unteren Sound-Port-Optionen sind sowohl für Mikrofone mit analogem als auch mit digitalem Ausgang verfügbar, was eine flexible Gestaltung ermöglicht.

Vergleicht man die beiden analogen Geräte, so hat das CMM-2718AB-38308-TR eine Empfindlichkeit von -38 dB und einen SNR von 65 dBA. Das CM-2718AT-43208-TR hat eine Empfindlichkeit von -42 dB und ein SNR von 60 dBA. Beide haben einen Frequenzbereich von 100 Hz bis 10 kHz und beziehen 80 µA von einer 2-Volt-Versorgungsschiene.

In Bezug auf die beiden digitalen Mikrofone hat das CMM-4030DB-26354-TR eine Empfindlichkeit von -26 dB FS und ein SNR von 64 dBA. Das CMM-4030DT-26354-TR hat eine Empfindlichkeit von -26 dB FS und ein SNR von 65 dBA. Beide verwenden ein 1-Bit-PDM-Datenformat, arbeiten über den Frequenzbereich von 100 Hz bis 10 kHz und beziehen 0,54 Milliampere (mA) aus einer 2-Volt-Versorgung.

Fazit

Ein genauerer Blick auf MEMS-Mikrofone - sowohl analoge als auch digitale - zeigt ihre Leistungsvorteile auf Systemebene und wie sie die ständig eingeschalteten Sprachschnittstellen-Designs ergänzen. Die neuesten MEMS-Mikrofone verwenden neuartige Technologien, um die Batterielebensdauer zu verlängern, die Audioqualität im Fernfeld zu verbessern und Umweltverschmutzungen zu widerstehen. Die Verbesserung der Schlüsselwortgenauigkeit ist ein weiterer wichtiger Design-Gedanke, der eng mit Parametern wie SNR, Empfindlichkeitstoleranz und Startzeit zusammenhängt, die alle in den neuesten Geräten berücksichtigt werden, um VUI-Designs besser anzupassen.

DigiKey logo

Haftungsausschluss: Die Meinungen, Überzeugungen und Standpunkte der verschiedenen Autoren und/oder Forumsteilnehmer dieser Website spiegeln nicht notwendigerweise die Meinungen, Überzeugungen und Standpunkte der DigiKey oder offiziellen Politik der DigiKey wider.

Über den Autor

Image of Majeed Ahmad

Majeed Ahmad

Majeed Ahmad ist Elektroniker mit über 20 Jahren Erfahrung in B2B-Technologiemedien. Er ist ehemaliger Chefredakteur der EE Times Asia, einer Schwesterzeitung der EE Times.

Majeed hat sechs Bücher über Elektronik verfasst. Er schreibt zudem regelmäßig für Fachzeitschriften zum Thema Elektronikdesign, darunter All About Circuits, Electronic Products und Embedded Computing Design.

Über den Verlag

Nordamerikanische Fachredakteure von DigiKey