GOOGLE STARTET EINEN VERBESSERTEN SPRACH-ZU-TEXT-SERVICE FÜR ENTWICKLER - TECHCRUNCH - EIGENSCHAFTEN - 2019

Anonim

Nur wenige Wochen nach der grundlegenden Überarbeitung der Cloud-Text-to-Speech-API hat Google heute auch ein Update für den Spracherkennungsdienst Speech-to-Text angekündigt. Die neue und verbesserte Cloud Speech-to-Text-API verspricht eine deutlich verbesserte Spracherkennungsleistung. Die neue API verspricht eine Reduzierung der Wortfehler um 54 Prozent bei allen Tests von Google, aber in einigen Bereichen sind die Ergebnisse tatsächlich weitaus besser.

Ein Teil dieser Verbesserung ist eine wichtige neue Funktion in der Speech-to-Text-API, die es Entwicklern nun ermöglicht, auf der Grundlage dieses Anwendungsfalls zwischen verschiedenen Maschinenlernmodellen zu wählen. Die neue API bietet derzeit vier dieser Modelle an. Es gibt beispielsweise einen für kurze Abfragen und Sprachbefehle sowie einen für das Verstehen von Audio von Telefonanrufen und einen weiteren für das Verarbeiten von Audio von Videos. Das vierte Modell ist der neue Standard, den Google für alle anderen Szenarien empfiehlt.

Zusätzlich zu diesen neuen Spracherkennungsmodellen aktualisiert Google den Dienst auch mit einem neuen Interpunktionsmodell. Wie das Google-Team zugibt, leiden seine Transkriptionen lange Zeit unter eher unorthodoxen Interpunktionszeichen. Die transkribierte Sprache zu interpunktieren ist notorisch schwer (fragen Sie einfach jemanden, der jemals versucht hat, eine Rede des derzeitigen US-Präsidenten zu transkribieren)

.

). Google verspricht, dass das neue Modell zu deutlich lesbareren Transkriptionen mit weniger Durchlaufsätzen und mehr Kommas, Punkten und Fragezeichen führt.

Mit diesem Update können Entwickler jetzt auch ihre transkribierten Audio- oder Videodateien mit grundlegenden Metadaten versehen. Es gibt keinen unmittelbaren Vorteil für den Entwickler hier, aber Google sagt, dass es die gesammelten Informationen von all seinen Benutzern verwenden wird, um zu entscheiden, welche neuen Funktionen als nächstes priorisiert werden sollen.

Google ändert die Gebühren für diesen Dienst geringfügig. Wie zuvor kosten Audioprotokolle $ 0, 006 pro 15 Sekunden. Das Videomodell kostet zwar doppelt so viel, kostet jedoch 0, 012 USD pro 15 Sekunden, bis zum 31. Mai kostet die Verwendung dieses neuen Modells jedoch ebenfalls 0, 006 USD pro 15 Sekunden.

Google Cloud startet eine neue Text-in-Sprache-Engine für Entwickler