DOKUMEN123.COM

Common Voice — პროექტი, რომელიც დაიწყო Mozilla-ს მიერ, რათა შეიქმნას უფასო მონაცემთა ბაზა მეტყველების ამოცნობის პროგრამული უზრუნველყოფისთვის. პროექტის მხარდამჭერები არიან მოხალისეები, რომლებიც წერენ წინადადებების ნიმუშებს მიკროფონით და ამოწმებენ სხვა მომხმარებლების ჩანაწერებს. ჩაწერილი წინადადებები გროვდება ხმოვან მონაცემთა ბაზაში, რომელიც ხელმისაწვდომია საჯარო დომენის CC ლიცენზიით.^[1] ეს ლიცენზია უზრუნველყოფს, რომ დეველოპერებს შეუძლიათ გამოიყენონ მონაცემთა ბაზა ხმოვანი ტექსტის აპლიკაციებისთვის შეზღუდვებისა და ხარჯების გარეშე.

მიზნები

Common Voice მიზნად ისახავს მრავალფეროვანი ხმის ნიმუშების ბაზის უზრუნველყოფას. Mozilla-ს თანამშრომლის, კატარინა ბორხერტის თქმით, ბევრმა არსებულმა პროექტმა მიიღო მონაცემთა ბაზა საჯარო რადიოდან ან სხვა გზით, რომელშიც ნაკლებად იყო როგორც ქალების ხმები, ასევე ადამიანების ხმები გამოხატული აქცენტით.^[2]

ისტორია

2022 წლის დასაწყისში Bengali.AI partnered თანამშრომლობდა Common Voice-თან, რათა წამოიწყო პროექტი „Bangla Speech Recognition“, რომელიც მიზნად ისახავდა მანქანებს გაეგოთ ბენგალური ენა. 2000 საათის ხმოვანი ჩანაწერი შეგროვდა 10000 საათზე მეტის შეგროვების მიზნით.^[3]

ხმოვანი მონაცემთა ბაზა

პირველი მონაცემთა ბაზა გამოქვეყნდა 2017 წლის ნოემბერში. 20000-ზე მეტმა მომხმარებელმა მთელი მსოფლიოდან ჩაწერეს 500 საათის ხანგრძლივობის ინგლისური წინადადებები.^[4]

2019 წლის თებერვალში გამოვიდა პირველი პარტია სხვადასხვა ენაზე გამოსაყენებლად. მასში შევიდა 18 ენა. მათ შორის: ინგლისური, ფრანგული, გერმანული და ჩინური (მანდარინი), მაგრამ ასევე ნაკლებად გავრცელებული ენები, როგორიცაა უელსური და კაბილური(ინგლისური)ქართ.. საერთო ჯამში, ეს მოიცავდა 42000-ზე მეტი მოხალისეს მიერ თითქმის 1400 საათის ჩანაწერ ხმოვან მონაცემებს.^[5]

2020 წლის ივლისის მონაცემებით Common Voice-ს მონაცემთა ბაზაში შევიდა 7226 საათის ხანგრძლივობის ხმოვანი ჩანაწერი 54 ენაზე, აქედან 5591 საათი მოხალისეების მიერ იქნა გადამოწმებული.^[6]

2021 წლის მაისში, რუანდის ხალხის ენის დამატების შემდეგ, მათ მიიღეს გრანტი სუაჰილი ენის დასამატებლად.^[7]

2022 წლის სექტემბერში გამოცხადდა, რომ განას აკანების ენა(ინგლისური)ქართ. (ერთ-ერთი დიალექტი) იყო მე-100 ენა, რომელიც დაემატა Common Voice-ს მონაცემთა ბაზას.^[8]

2022 წლის ოქტომბრის მონაცემებით Mozilla Common Voice ოფიციალურად ხმოვან მონაცემებს აგროვებს შემდეგ ენებზე:^[9]

აფხაზური
არაბული
სომხური
ასამური
ასტურიული
ბაშკირული
ბასაა
ბასკური
ბელარუსული
ბენგალური
ბრეტონული
ბულგარული
კატალონიური
ჩინური (კანტონური და მანდარინის დიალექტები)
ჩუვაშური
ჩეხური
დანიური
დივეჰი
ჰოლანდიური
ინგლისური
ესპერანტო
ერზია
ფინური
ფრანგული
ფრიზიული
გალისიური
ქართული
გერმანული
ბერძნული
გუარანი
ჰაუსა
ჩინური ჰაკა
ჰინდი
უნგრული
ინდონეზიური
ინტერლინგვალური
ირლანდიელი
იტალიური
იაპონური
კაბილი
ყაზახური
კინიარუანდა
კორეული
ქურთული (ცენტრალური და კურმანჯი დიალექტები)
ყირგიზული
ლატვიური

ლუგანდა
მაკედონური
მალაიალამური
მალტური
მარათული
მარიული
მოქშანური
მონღოლური
ნეპალური
ნორვეგიული (ახალნორვეგიული)
ორია
სპარსული
პოლონური
პორტუგალიური
პენჯაბური
რუმინული
რომანში (სურსილვანი და ვალადერის დიალექტები)
რუსული
სახა
სანტალი
სარაიკი
სარდინიული
სერბული
სლოვენური
ესპანური
სუაჰილი
შვედური
ტაივანური ჰოკლო
ტამილური
თათრული
ტაილანდური
ტიგრეს ენა (გავრცელებულია ერიტრეასა და აღმოსავლეთ სუდანში)
ტიგრინია
ტოკი პონა
განას აკანების ენა(ინგლისური)ქართ.
თურქული
ზემო სორბიული
უკრაინული
ურდუ
უიღურული
უზბეკური
ვიეტნამური
ვოდური
უელსური

ფაქტები

2025 წელს პროფესორ რატი სხირტლაძის და ენაგრამის გუნდის დიდი შრომისა და ძალისხმევის შედეგად დაემატა მეგრული, აფხაზური და წოვა-თუშური ენები.

2025 წლის დეკემბრის მონაცემებით, Mozilla Common Voice აგროვებს ხმოვან მონაცემებს 250-ზე მეტ ენაზე.^[10]

რესურსები ინტერნეტში

ოფიციალური საიტი

სქოლიო

↑ Mozilla Common Voice en. ციტირების თარიღი: 2024-10-06
↑ „Why do we gender AI? Voice tech firms move to be more inclusive“. The Guardian. 11 January 2020. დაარქივებულია ორიგინალიდან — 19 December 2022. ციტირების თარიღი: 19 April 2020.
↑ Bengali.AI: Democratising AI research in Bangla en (2022-12-23). ციტირების თარიღი: 2022-12-25
↑ Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset (November 29, 2017). ციტირების თარიღი: November 19, 2019
↑ Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages. დაარქივებულია ორიგინალიდან — მარტი 4, 2019. ციტირების თარიღი: November 19, 2019
↑ Mozilla Common Voice updates will help train the ‘Hey Firefox’ wakeword for voice-based web browsing (1 July 2020). დაარქივებულია ორიგინალიდან — 10 მარტი 2021. ციტირების თარიღი: 1 April 2021
↑ Mozilla Common Voice Receives $3.4 Million Investment to Democratize and Diversify Voice Tech in East Africa en (2021-05-25). ციტირების თარიღი: 2021-06-03
↑ Ghana’s most popular language is now on Mozilla Common Voice (23 September 2022). ციტირების თარიღი: 3 October 2022
↑ Languages en. ციტირების თარიღი: 4 October 2022
↑ Languages en. ციტირების თარიღი: 8 December 2025

[1] Mozilla Common Voice en. ციტირების თარიღი: 2024-10-06

[2] „Why do we gender AI? Voice tech firms move to be more inclusive“. The Guardian. 11 January 2020. დაარქივებულია ორიგინალიდან — 19 December 2022. ციტირების თარიღი: 19 April 2020.

[3] Bengali.AI: Democratising AI research in Bangla en (2022-12-23). ციტირების თარიღი: 2022-12-25

[4] Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset (November 29, 2017). ციტირების თარიღი: November 19, 2019

[5] Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages. დაარქივებულია ორიგინალიდან — მარტი 4, 2019. ციტირების თარიღი: November 19, 2019

[6] Mozilla Common Voice updates will help train the ‘Hey Firefox’ wakeword for voice-based web browsing (1 July 2020). დაარქივებულია ორიგინალიდან — 10 მარტი 2021. ციტირების თარიღი: 1 April 2021

[7] Mozilla Common Voice Receives $3.4 Million Investment to Democratize and Diversify Voice Tech in East Africa en (2021-05-25). ციტირების თარიღი: 2021-06-03

[8] Ghana’s most popular language is now on Mozilla Common Voice (23 September 2022). ციტირების თარიღი: 3 October 2022

[9] Languages en. ციტირების თარიღი: 4 October 2022

[10] Languages en. ციტირების თარიღი: 8 December 2025

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Common Voice