Cùng với việc triển khai API ChatGPT, hôm nay 02/3/2023 OpenAI đã ra mắt thêm một hệ thống đó là: Whisper nhận dạng giọng nói tự động, có thể rất nhiều anh em đang làm content Youtube đang cần. API này được tuyên bố cho phép phiên âm “mạnh mẽ” bằng nhiều ngôn ngữ cũng như dịch từ các ngôn ngữ đó sang tiếng Anh, và có thể xử lý nhiều định dạng tệp âm thanh khác nhau. Hệ thống này đã được đào tạo trên 680.000 giờ dữ liệu đa ngôn ngữ và “đa tác vụ” được thu thập từ web, giúp cải thiện khả năng nhận dạng các giọng độc đáo, tiếng ồn xung quanh và phân biệt ngôn ngữ kỹ thuật.
OpenAI dự định thu phí Whisper với giá 0,006 đô la mỗi phút nên theo mình với giá thành này có thể ứng dụng làm content được, tuy nhiên Whisper vẫn có những hạn chế của nó, bao gồm khả năng dự đoán “từ tiếp theo” không chính xác và tỷ lệ lỗi ngữ văn cao hơn khi nói đến những ngôn ngữ không phổ biến ví dụ như tiếng việt ( nhưng nghe cũng khá ổn).
Theo quan điểm của Brockman, có rất nhiều rào cản khi các doanh nghiệp áp dụng công nghệ sao chép giọng nói. Theo một cuộc khảo sát năm 2020 của Statista , các công ty cho rằng độ chính xác, các vấn đề về nhận dạng liên quan đến giọng nói hoặc phương ngữ và chi phí là những lý do hàng đầu khiến họ khó chấp nhận công nghệ này, hi vọng openAI sớm cải thiện để tiếp cận nhiều người dùng .
Mặc dù vậy, OpenAI nhận thấy khả năng sao chép của Whisper đang được sử dụng để cải thiện các ứng dụng, dịch vụ, sản phẩm và công cụ hiện có. Hiện tại, ứng dụng học ngôn ngữ do AI hỗ trợ Speak đang sử dụng API Whisper để cung cấp nhiều gói dịch vụ cho khách hàng.
Nếu OpenAI có thể kinh doanh với vào thị trường chuyển giọng nói thành văn bản theo cách chủ yếu, thì nó có thể mang lại lợi nhuận khá lớn cho công ty do Microsoft hậu thuẫn. Theo một báo cáo, phân khúc này có thể trị giá 5,4 tỷ USD vào năm 2026, tăng từ 2,2 tỷ USD vào năm 2021.
Theo các bác có thể xử dụng ứng dụng này như nào.
Nguồn tin tức: maytinhuongbi.com