Я готовий померти на цьому пагорбі: Найкращі голосові моделі — це ті, що мають найкращу точність із ключовими сутностями, а не ті, що оптимізуються під WER (Word Error Rate). Більшість провайдерів мовлення в текст оптимізують для WER, але в виробничих застосунках WER не є таким важливим. Правильно підібрати 95% слів марно, якщо ви пропустите ім'я клієнта, номер телефону чи адресу, яку він щойно написав буква за літерою. Команда Gladia провела дуже цікавий бенчмарк: • 1 000+ розмов у кол-центрах • Багато фонового шуму • Зосередитися на вилученні імен, номерів телефонів, адрес, локацій тощо. Модель Gladia перевершила всі інші сучасні моделі до 17%! Саме ці дані важливі для компаній, що використовують ці моделі. Якщо помилитися, все далі ламається. Ще кілька речей, які варто згадати: • Затримка на часткових частотах: < 150 мс • 100+ підтримуваних мов • Динамічне виявлення мови • Загальний WER — 5,97% Обов'язково варто перевірити для тих, хто використовує голосові моделі: Дякую команді Gladia за співпрацю зі мною над цим дописом.