Common Voice

Common Voice — პროექტი, რომელიც დაიწყო Mozilla-ს მიერ, რათა შეიქმნას უფასო მონაცემთა ბაზა მეტყველების ამოცნობის პროგრამული უზრუნველყოფისთვის. პროექტის მხარდამჭერები არიან მოხალისეები, რომლებიც წერენ წინადადებების ნიმუშებს მიკროფონით და ამოწმებენ სხვა მომხმარებლების ჩანაწერებს. ჩაწერილი წინადადებები გროვდება ხმოვან მონაცემთა ბაზაში, რომელიც ხელმისაწვდომია საჯარო დომენის CC ლიცენზიით.[1] ეს ლიცენზია უზრუნველყოფს, რომ დეველოპერებს შეუძლიათ გამოიყენონ მონაცემთა ბაზა ხმოვანი ტექსტის აპლიკაციებისთვის შეზღუდვებისა და ხარჯების გარეშე.

მიზნები

Common Voice მიზნად ისახავს მრავალფეროვანი ხმის ნიმუშების ბაზის უზრუნველყოფას. Mozilla-ს თანამშრომლის, კატარინა ბორხერტის თქმით, ბევრმა არსებულმა პროექტმა მიიღო მონაცემთა ბაზა საჯარო რადიოდან ან სხვა გზით, რომელშიც ნაკლებად იყო როგორც ქალების ხმები, ასევე ადამიანების ხმები გამოხატული აქცენტით.[2]

ისტორია

2022 წლის დასაწყისში Bengali.AI partnered თანამშრომლობდა Common Voice-თან, რათა წამოიწყო პროექტი „Bangla Speech Recognition“, რომელიც მიზნად ისახავდა მანქანებს გაეგოთ ბენგალური ენა. 2000 საათის ხმოვანი ჩანაწერი შეგროვდა 10000 საათზე მეტის შეგროვების მიზნით.[3]

ხმოვანი მონაცემთა ბაზა

პირველი მონაცემთა ბაზა გამოქვეყნდა 2017 წლის ნოემბერში. 20000-ზე მეტმა მომხმარებელმა მთელი მსოფლიოდან ჩაწერეს 500 საათის ხანგრძლივობის ინგლისური წინადადებები.[4]

2019 წლის თებერვალში გამოვიდა პირველი პარტია სხვადასხვა ენაზე გამოსაყენებლად. მასში შევიდა 18 ენა. მათ შორის: ინგლისური, ფრანგული, გერმანული და ჩინური (მანდარინი), მაგრამ ასევე ნაკლებად გავრცელებული ენები, როგორიცაა უელსური და კაბილური(ინგლისური)ქართ.. საერთო ჯამში, ეს მოიცავდა 42000-ზე მეტი მოხალისეს მიერ თითქმის 1400 საათის ჩანაწერ ხმოვან მონაცემებს.[5]

2020 წლის ივლისის მონაცემებით Common Voice-ს მონაცემთა ბაზაში შევიდა 7226 საათის ხანგრძლივობის ხმოვანი ჩანაწერი 54 ენაზე, აქედან 5591 საათი მოხალისეების მიერ იქნა გადამოწმებული.[6]

2021 წლის მაისში, რუანდის ხალხის ენის დამატების შემდეგ, მათ მიიღეს გრანტი სუაჰილი ენის დასამატებლად.[7]

2022 წლის სექტემბერში გამოცხადდა, რომ განას აკანების ენა(ინგლისური)ქართ. (ერთ-ერთი დიალექტი) იყო მე-100 ენა, რომელიც დაემატა Common Voice-ს მონაცემთა ბაზას.[8]

2022 წლის ოქტომბრის მონაცემებით Mozilla Common Voice ოფიციალურად ხმოვან მონაცემებს აგროვებს შემდეგ ენებზე:[9]

ფაქტები

2025 წელს პროფესორ რატი სხირტლაძის და ენაგრამის გუნდის დიდი შრომისა და ძალისხმევის შედეგად დაემატა მეგრული, აფხაზური და წოვა-თუშური ენები.

2025 წლის დეკემბრის მონაცემებით, Mozilla Common Voice აგროვებს ხმოვან მონაცემებს 250-ზე მეტ ენაზე.[10]

რესურსები ინტერნეტში

სქოლიო

  1. Mozilla Common Voice en. ციტირების თარიღი: 2024-10-06
  2. „Why do we gender AI? Voice tech firms move to be more inclusive“. The Guardian. 11 January 2020. დაარქივებულია ორიგინალიდან — 19 December 2022. ციტირების თარიღი: 19 April 2020.
  3. Bengali.AI: Democratising AI research in Bangla en (2022-12-23). ციტირების თარიღი: 2022-12-25
  4. Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset (November 29, 2017). ციტირების თარიღი: November 19, 2019
  5. Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages. დაარქივებულია ორიგინალიდან — მარტი 4, 2019. ციტირების თარიღი: November 19, 2019
  6. Mozilla Common Voice updates will help train the ‘Hey Firefox’ wakeword for voice-based web browsing (1 July 2020). დაარქივებულია ორიგინალიდან — 10 მარტი 2021. ციტირების თარიღი: 1 April 2021
  7. Mozilla Common Voice Receives $3.4 Million Investment to Democratize and Diversify Voice Tech in East Africa en (2021-05-25). ციტირების თარიღი: 2021-06-03
  8. Ghana’s most popular language is now on Mozilla Common Voice (23 September 2022). ციტირების თარიღი: 3 October 2022
  9. Languages en. ციტირების თარიღი: 4 October 2022
  10. Languages en. ციტირების თარიღი: 8 December 2025

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.