Filmora
Filmora - KI Video Editor
Bearbeiten Sie schneller, intelligenter und einfacher!
ÖFFNEN
Filmora Video Editor
Erstellen Sie mühelos Videos mit KI.
  • Verschiedene KI-Tools zur Steigerung der Effizienz bei der Videoerstellung.
  • Bieten Sie beliebte Vorlagen und lizenzfreie kreative Ressourcen an
Empfohlen von endorse

Wie kann man den Microsoft Azure Sprache zu Text Dienst verwenden

Maria Wiedermann
Maria Wiedermann Veröffentlicht am 19-09-2022, Aktualisiert am 04-11-2024

Sind Sie es leid, Texte manuell in Dokumenteditoren wie Word und Notepad einzugeben? Verwenden Sie den Microsoft-Dienst für die Umwandlung von Sprache in Text. Dieser Dienst wurde 2020 zusammen mit dem Text-zu-Sprache-Service eingeführt, der berühmte computergenerierte Stimmen wie Microsoft Sam und seinen Bruder Mike enthält. In dieser kurzen Lektüre erfahren Sie, was der Microsoft Azure-Dienst "Sprache zu Text" ist und welche Möglichkeiten er bietet. Außerdem stelle ich Ihnen die besten Microsoft Azure STT-Alternativen vor. Werfen wir einen Blick darauf!

In diesem Artikel
  1. Teil 1: Was ist Microsoft Azure und Speech Studio?
  2. Teil 2: Schritt-für-Schritt-Anleitung zur Transkription von Sprache in Text mit Microsoft Speech Studio
  3. Teil 3: Was sind die kostenlosen Alternativen zum Microsoft Sprache-zu-Text-Dienst?

Teil 1: Was ist Microsoft Azure und Speech Studio?

Microsoft Azure STT und TTS sind Teil der Microsoft Cognitive Services Speech. Diese kognitiven Dienste verfügen über modernste Intelligenz in den Bereichen Spracherkennung, maschinelle Übersetzung und OCR (Optical Character Recognition). Der Microsoft-Dienst für die Umwandlung von Sprache in Text nutzt Azure Machine Learning (Azure ML), um menschliche Stimmen automatisch zu erkennen, zu analysieren und in editierbare und durchsuchbare Texte zu konvertieren.

Allerdings können Sie mit Azure STT auch Streaming-Audio, Mikrofonkommentare oder lokale Audiodateien transkribieren. Es unterstützt mehr als 100 Sprachen, darunter Englisch, Deutsch, Französisch, Swahili, Hindi, Ukrainisch, Türkisch, Arabisch und mehr. Denken Sie daran, dass dieser Dienst auch die Stapel-Transkription unterstützt, mit der Sie mehrere Audios in einem Stapel transkribieren können.

In der Zwischenzeit ist Azure STT in vielen Formaten verfügbar, einschließlich Speech SDK. Mit dem Speech SDK (Software Development Kit) können Sie gängige Programmiersprachen verwenden, um eine sprachgesteuerte Anwendung zu erstellen. Es ist kompatibel mit Java, JavaScript, Python, Visual Studio C++, Swift und Objective-C.

Wenn Sie sich mit Programmiersprachen nicht auskennen, verwenden Sie Speech CLI, ein Befehlstool, mit dem Sie den Spracherkennungsdienst ohne Eingabe eines Codes nutzen können. Einfach ausgedrückt: Es bietet eine minimale Einrichtung mit präzisen Anforderungen. Außerdem bietet es so ziemlich alles, was Sie im Speech SDK finden. Es hängt also von Ihren Fähigkeiten und Vorlieben ab.

Erwähnenswert ist auch, dass Azure Speech Studio die Erkennung von Schlüsselwörtern oder Keyword-Spotting unterstützt. Sie können Modelle für die Erkennung von Schlüsselwörtern erstellen und eine beliebige kurze Phrase oder ein Wort angeben. Benutzer können auch Schlüsselwörter mit den richtigen Interpunktionen personalisieren. Und das Beste ist, dass für die Anpassung der Schlüsselwörter keine zusätzlichen Kosten anfallen.

Teil 2: Schritt-für-Schritt-Anleitung zur Transkription von Sprache in Text mit Microsoft Speech Studio

Lassen Sie uns nun lernen, wie Sie die Microsoft Azure Spracherkennungsdienste nutzen können. Denken Sie daran, dass die Konvertierung möglicherweise nicht genau ist, wenn das Audiomaterial viel Fachjargon oder Umgebungsgeräusche enthält. Verwenden Sie daher ein klares Audio mit einem externen Mikrofon oder trainieren Sie die Software, bestimmte Wörter oder Schlüsselwörter zu erkennen. Lassen Sie uns loslegen!

Schritt 1 Beginnen Sie mit der Erstellung eines Microsoft Azure-Kontos. Sie beginnen mit der kostenlosen Version, die Ihnen ein Guthaben von $200 gibt, das Sie innerhalb von 30 Tagen nutzen können. Nachdem Sie das kostenlose Guthaben aufgebraucht haben, nutzen Sie das Pay-as-you-go-Modell, mit dem Sie mehr als 40 Azure-Dienste freischalten können.

Schritt 2 Nachdem Sie ein Microsoft Azure-Portal erstellt haben, sehen Sie alle Azure-Dienste. Klicken Sie auf die Sprachdienste Registerkarte oder suchen Sie in der Suchleiste nach "Sprachdienste". Klicken Sie nun auf Erstellen und füllen Sie die Projektdetails aus. Klicken Sie dann auf Überprüfen und Erstellen, bevor Sie auf Erstellen klicken.

Schritt 3 Es dauert eine Weile, bis das Programm eine Instanz bereitstellt. Tippen Sie nun auf Keys und Endpunkte im linken Fensterbereich und kopieren Sie den Schlüssel und die Regionskennung, da Sie diese später noch benötigen könnten.

Micrsoft Azure Sprache zu Text kopieren Schlüssel und Region

Schritt 4 Laden Sie Microsoft Visual C++ und .NET Core 3.1 Runtime herunter und installieren Sie sie. Als nächstes installieren Sie Speech CL auf .NET, indem Sie diesen Befehl ausführen: "dotnet tool install -global Microsoft.CognitiveServices.Speech.CLI". Alternativ dazu können Sie Speech CLI für Windows-PCs als ZIP-Datei herunterladen und installieren.

Schritt 5 Geben Sie nun die regionale Azure-Kennung und den Abonnementschlüssel in Windows Terminal oder PowerShell ein. Um die Region und den Schlüssel zu konfigurieren, führen Sie diese Befehle aus: "spx config @key --set SUBSCRIPTION-KEY und spx config @region --set REGION."

Schritt 6 Jetzt ist es an der Zeit, mit dem Azure STT Service Sprache in Text zu konvertieren. Führen Sie dazu "spx recognize -microphone" in Terminal oder PowerShell aus. Azure Speech CLI hört die Toneingabe ab und wandelt sie in Text um. Und das ist es!

Hinweis: Klicken Sie auf dieses Video, um eine ausführliche Anleitung für die Verwendung von Azure Speech Services mit Visual Basic (SDK) zu erhalten.

Teil 3: Was sind die kostenlosen Alternativen zum Microsoft Sprache-zu-Text-Dienst?

Wir sollten uns alle einig sein, dass die Verwendung von Microsoft Azures Speech Service kein Kinderspiel ist. Sie benötigen einige Kenntnisse der Programmierung und der Windows-Eingabeaufforderung. Noch schlimmer ist, dass Sie jedes Mal bezahlen müssen, wenn Sie Sprache in Text umwandeln möchten, nachdem das kostenlose Guthaben aufgebraucht ist.

Glücklicherweise gibt es keinen Mangel an kostenlosen Convertern für Sprache in Text für Anfänger. In diesem Teil besprechen wir also einige kostenlose Microsoft Azure STT-Alternativen für Anfänger.

1.Wondershare Filmora 11 - Kostenlos mit einem $49 Premium-Tarif

Beginnen wir mit dem besten Offline-Converter für Sprache zu Text für macOS und Windows-Systeme - Filmora 11. Es handelt sich um einen Video-Editor, mit dem Sie preisgekrönte Videos erstellen können, ohne dass Sie über Schnittkenntnisse verfügen. Laden Sie einfach Ihr lokales Video hoch und bearbeiten Sie es nach Belieben. Und ja, es funktioniert mit einer Vielzahl von Videoformaten.

Zurück zum heutigen Thema: Filmora 11 nutzt fortschrittliche künstliche Intelligenz in Verbindung mit tiefgreifendem maschinellem Lernen, um Audio schnell und präzise zu transkribieren. Die STT-Funktion wandelt hörbares Audio in bearbeitbare Texte oder Untertitel mit supergenauer Synchronisation um. Dieses Tool unterstützt mehr als 16 Sprachen, darunter Englisch, Französisch, Deutsch und mehr. Außerdem können Sie den extrahierten Text im SRT-Format herunterladen.

Folgen Sie diesen Schritten, um mit Filmora 11 Audio in Text zu transkribieren:

Schritt 1 Installieren Sie die neueste Version von Wondershare Filmora oder aktualisieren Sie Ihre Version auf Filmora 11. Nur mit der aktualisierten Version erhalten Sie die Funktionen STT und TTS. Starten Sie dennoch ein Neues Projekt.

micrsoft azure sprache zu text projekt erstellen

Schritt 2 Als Nächstes klicken Sie auf "Medien importieren", um die Video- oder Audiodatei zu laden, die Sie in Text umwandeln möchten. Ziehen Sie das Video nach dem Hochladen in die Zeitleiste und trennen Sie Audio und Video. Klicken Sie dazu mit der rechten Maustaste auf das Video und wählen Sie "Audio abtrennen". Es geht darum, Texte aus Ihrer Audiodatei zu extrahieren.

micrsoft azure sprach-zu-text medien importieren

Schritt 3 Wählen Sie nun die Audiospur aus und klicken Sie auf das Symbol Sprache-zu-Text. Oder klicken Sie mit der rechten Maustaste auf die Audiospur und wählen Sie Sprache-zu-Text. Es erscheint ein Popup-Fenster, in dem Sie die Transkriptionssprache und den Modus auswählen können. Sie können einen bestimmten Clip oder die gesamte Zeitleiste transkribieren. Klicken Sie auf Ok, um mit dem Scannen und Transkribieren der Audiodaten in Text zu beginnen.

micrsoft azure sprache zu text öffnen stt

Schritt 4 Nach einer erfolgreichen Transkription wird eine Zeitleiste mit Text hinzugefügt. Doppelklicken Sie darauf, um die Textspuren anzuzeigen und zu bearbeiten. Sie können eine neue Untertitelspur hinzufügen, den Text ändern, die Größe anpassen, die Farbe ändern und vieles mehr. Wenn Sie mit dem extrahierten Text zufrieden sind, klicken Sie mit der rechten Maustaste auf die Zeitleiste des Textes und klicken Sie auf "Untertiteldatei exportieren". Das war einfach!

micrsoft azure sprache zu text texte bearbeiten

2. Google Docs - Kostenlos

micrsoft azure sprache-zu-text alternative google docs

Wenn Sie eine kostenlose Software für die Spracheingabe suchen, sind Sie mit Google Docs besser dran. Die meisten von Ihnen wissen vielleicht nicht, dass Google Docs Sprache präzise in Text umwandeln kann. Das macht es zu einem praktischen Tool, wenn Ihnen das Sprechen leichter fällt als das Schreiben. Wie erwartet, erkennt dieses Tool zur Sprachumschreibung Hunderte von Sprachen, wie z.B. Englisch, Französisch, Italienisch, Hindi, etc.

Aber auch wenn es eine lobenswerte Arbeit leistet, können Sie mit einer weniger klaren Audioaufnahme keine genauen Transkriptionen erhalten. Außerdem gibt es keine Feinheiten wie Punkte, Kommas und andere Interpunktionen. Bleiben Sie daher bei einer professionellen App wie Filmora, um Ihre Audiodaten in Text umzuwandeln.

Schritte zur Umwandlung von Sprache in Text mit Google Docs:

Schritt 1 Öffnen Sie ein neues Dokument in Google Docs und klicken Sie dann auf Spracheingabe. Das eingebaute Mikrofon wird automatisch gestartet.

Schritt 2 Klicken Sie dann auf den Dropdown-Pfeil für die Sprache am Mikrofon, um die Transkriptionssprache auszuwählen. Sie können Texte auf Englisch, Espanol, Französisch, Italienisch, Afrikaans, Arabisch und mehr diktieren.

Schritt 3 Klicken Sie auf das Mikrofon Symbol, um mit dem Diktieren von Texten in Google Docs zu beginnen. Nachdem Sie genügend Texte diktiert haben, tippen Sie auf das rote Mikrofon-Symbol und bearbeiten Ihren Text. So einfach ist das!

3.Audtext - $60 einmalige Gebühr

micrsoft azure sprach-zu-text alternative audtext

Wenn Ihnen der Spracherkennungsdienst von Google zu langsam ist, sollten Sie Audtext in Betracht ziehen. Es ist ein hoch bewertetes Online-Programm, das modernste Technologie für maschinelles Lernen verwendet, um Audio in Text in mehr als 60 Sprachen zu transkribieren. Sie können dieses Programm leicht trainieren, um den Sprecher in Ihrem Interview oder Ihrer Podcast-Datei zu identifizieren.

Inzwischen kann Audtext typische Video- und Audioformate transkribieren, darunter MP3, WAV, M4A, MP4, MOV und mehr. Und nachdem Sie die Audiodaten in Text umgewandelt haben, nutzen Sie den integrierten Texteditor, um Ihren Text zu retuschieren und vorzeigbar zu machen.

Lassen Sie uns herausfinden, wie dieser STT-Service funktioniert:

Schritt 1 Erstellen Sie ein Transkriptionskonto auf Audtext und klicken Sie auf Neuer Upload, um den Transkriptionsmodus zu wählen. Sie können die automatische Transkription mit KI oder die professionelle Transkription durch einen echten Menschen wählen. Wählen wir also Automatisch.

Schritt 2 Ziehen Sie Ihre Video- oder Audiodatei in das Programm und wählen Sie dann die Transkriptionssprache. Nachdem Sie Ihre Datei hinzugefügt haben, klicken Sie auf Hochladen, um sie zu scannen und zu transkribieren. Das sollte eine Weile dauern.

Schritt 3 Klicken Sie schließlich auf die transkribierte Textdatei, um sie mit dem eingebauten Editor mit neuen Texten und Interpunktionen zu bearbeiten. Sie können Ihre Transkription im .txt-, .srt- oder .docx-Format exportieren. Ein direkter Export zu Google Drive ist ebenfalls möglich.

Abschließende Worte

Bis zu diesem Punkt sollten Sie bereit sein, mit Microsoft Cognitive Services Speech zu beginnen. Mit der Funktion Sprache-zu-Text können Sie unbegrenzt viele Stimmen auf Ihrem Computer in Text umwandeln. Allerdings kann die Einrichtung des Programms schwierig sein, wenn Sie kein Techniker sind.

Verwenden Sie in diesem Fall eine einfachere Option wie Google Docs, um Texte in den Texteditor zu diktieren. Vielleicht möchten Sie auch Filmora 11 in Betracht ziehen, um jede lokale Audio- oder Videodatei in bearbeitbaren Text zu kodieren. Zeit für einen Versuch!

Kostenloser Download
Kostenloser Download
Maria Wiedermann
Maria Wiedermann Redakteur
Weiterteilen:
Weiterteilen:
filmora logo filmora logo