תקן ISO 639-3:2007, "קודים לייצוג שמות של שפות – חלק 3: קוד אלפא-3 לכיסוי מקיף של שפות" (במקור: Codes for the representation of names of languages – Part 3: Alpha-3 code for comprehensive coverage of languages), הוא תקן בינלאומי לקודי שפה בסדרת ISO 639. תקן 3–639 מגדיר קודים בני שלוש אותיות לזיהוי שפות. התקן פורסם על ידי ארגון התקינה הבינלאומי (ISO) ב-1 בפברואר 2007.[1]
הקודים בתקן 3–639 מיועדים לשימוש כקודי מטא-דאטה במגוון רחב של יישומים. הוא בשימוש נרחב במערכות מחשב ומידע, כמו האינטרנט, שדורשות תמיכה בשפות רבות. בארכיונים ובאחסוני מידע אחרים התקן משמש לקִטְלוּג מערכות, ומסייע לציין עבור כל משאב במערכת – באיזו שפה הוא או באיזו שפה הוא עוסק. הקודים משמשים לעיתים קרובות גם בכתיבת מחקרים בלשניים, למשל, כדי להבהיר שמות שפה רב-משמעיים או שאינם ייחודיים לשפה מסוימת.
קודי שפה
ISO 639-3 כולל את כל השפות בתקן ISO 639-1 ואת כל השפות הפרטניות בתקן ISO 639-2. שני התקנים הראשונים בסדרה, 639-1 ו-2–639, התמקדו בשפות מרובות-הדוברים, המיוצגות רבות בספרות המחקר. מכיוון שתקן 2 כולל גם קבוצות שפות, וחלק 3 לא, הרי ש-ISO 639-3 אינו כולל בתוכו את כל ISO 639-2. במקרים שבהם תקן 2 מציע שני קודים לאותה שפה, האחד "B" ("ביבליוגרפי", השם הזר לשפה) והשני "T" ("טרמינולוגי", המונח הילידי לשפה), קוד 3–639 נוקט באופציית T הילידית (ראו דוגמאות בטבלה להלן).
נכון ל-18.2.21, התקן מכיל 7,893 ערכים.[6] מלאי השפות מבוסס על מספר מקורות, כולל: השפות הפרטניות הכלולות בתקן 2–639, שפות מודרניות ממאגר אתנולוג, וריאנטים היסטוריים, שפות עתיקות ושפות מתוכננות מלינגוויסט ליסט,[7] וכן שפות שהציבור ביקש להוסיפן.
רשות הרישום מספקת את קובצי הנתונים הקריאים למכונה.[8] ניתן למפות את הנתונים מתקן 1–639 או 2–639 אל 3–639 באמצעות קבצים אלה.
639-3 מאפשר להניח כהנחת מוצא הבחנות, המבוססות על קריטריונים שאינם אובייקטיביים לחלוטין.[9] הוא לא נועד לתעד או לספק מזהים לניבים או לווריאנטים אחרים שלא הוגדרו כשפות.[10] למרות זאת, הבחנה בין שפות עשויה להיות סובייקטיבית, במיוחד במקרה של וריאנטים לשוניים ללא ביסוס של מסורת כתיבה, שימוש בשפה במערכת החינוך, בתקשורת או גורמים אחרים התורמים להפיכת השפה לשגורה. לכן אין לראות בתקן סמכות בשאלה, אילו שפות מובחנות קיימות בעולם (בנושא זה עשויה להיות מחלוקות מהותיות), אלא פשוט דרך שימושית אחת לקודד במדויק וריאנטים לשוניים.
מרחב/עמדת קוד
מכיוון שהקוד בן שלוש אותיות, תאורטית המספר המקסימלי של שפות הניתנות לייצוג הוא 26 × 26 × 26 = 17,576. עם זאת, מאחר שתקן 2–639 מגדיר קודים מיוחדים (4 כאלה), טווח שמור (ל-520) וקודים שעבורם יש רק סוג B (קיימים 22), 546 קודים לא ניתנים לשימוש בתקן 3–639. על כן, המקסימום המחמיר הוא 17,576 – 546 = 17,030 שפות.
הגבול העליון מחמיר עוד יותר אם מפחיתים את מקבצי השפות שהוגדרו בתקן 2–639 ואת אלה שטרם הוגדרו בתקן הבא, ISO 639-5.
מאקרו-שפות
קיימות 58 שפות בתקן 2–639 הנחשבות, לצורך התקן, כ"מאקרו-שפות" בתקן 3–639.[11]
חלק מהמאקרו-שפות הללו לא כללו שפה פרטנית בהגדרה של תקן 3–639 במערך הקוד של 2–639, למשל "ara" (הקוד לערבית באופן כללי). אחרים פוצלו לשני קודים נפרדים כבר בתקן 2–639, דוגמת "nor" עבור נורווגית, שפוצל ל-"nno" עבור נורווגית חדשה ול-"nob" עבור נורווגית ספרותית.
המשמעות היא שכמה שפות (למשל 'arb', ערבית סטנדרטית) שנחשבו על פי ISO 639-2 לניבים של שפה אחת ('ארה') נמצאות כעת ב-ISO 639-3 בהקשרים מסוימים הנחשבים כשפות בודדות עצמן.
זה נעשה בניסיון להתמודד עם קידוד וריאנטים שעשויים להיות שונים זה מזה מבחינה לשונית, אך בעיני הדוברים שלהם הם שתי צורות של אותה שפה, למשל במקרים של דיגלוסיה.
לדוגמה, ערבית ספרותית/תקנית מתקיימת לצד ערבית מדוברת. תקן 2–639 מספק את קוד "ara" לערבית באופן כללי, ואילו תקן 3–639 מספק את קוד "arb" ספציפית לערבית תקנית.
לרשימה מלאה, ראו את מיפוי המאקרו-שפות באתר SIL.[12]
קוד שפה קולקטיבי
ארגון SIL מגדיר אלמנט קוד-שפה קולקטיבי כ"מזהה המייצג קבוצה של שפות פרטניות, שאינן נחשבות שפה אחת בהקשר שימוש כלשהו."[13] קודים קולקטיביים כאלה אינם מייצגים במדויק שפה מסוימת או אף מאקרו-שפה.
בעוד שתקן 2–639 כולל מזהי שפות קולקטיביים בני שלוש אותיות, קודים אלה אינם נכללים בתקן 3–639. מכאן שתקן 3–639 אינו כולל בתוכו את כל קודי 2–639.
תקן ISO 639-5 מגדיר קודים קולקטיביים בני שלוש אותיות למשפחות-שפה ולקבוצות-שפות קטנות יותר, כולל קודי השפה הקולקטיביים מתקן 2–639.
קודים מיוחדים
ארבעה קודים הושארו ללא שימוש בתקנים 2–639 ו-3–639, למקרים שבהם אף אחד מהקודים הספציפיים אינו מתאים. הקודים המיוחדים מיועדים בעיקר ליישומים כמו מסדי נתונים שבהם צריך לייצג קוד ISO שלא בהכרח קיים עדיין.
קוד mis (קיצור של miscellaneous "שוֹנוֹת") נועד לשפות שעדיין לא הוקצה להן קוד בתקן ISO.
קוד mul (קיצור של multiple, "שפות מרובות") מיועד למקרים שבהם הנתונים כוללים יותר משפה אחת אך נדרש קוד יחיד, למשל במקרה שמסד הנתונים צריך נתון בודד.
קוד und (קיצור של undetermined "לא הוכרע") מיועד למקרים שבהם השפה המופיעה בנתונים טרם זוהתה, למשל כשהיא מסומנת באופן שגוי, או שמעולם לא סומנה. הקוד אינו מיועד למקרים כמו לשון העיר טרויה שעדיין לא הוכרע לגביה מה הייתה ואם הייתה שפה יחידה.
קוד zxx מייצג מצב של "אין הקשר לשוני" או של "זיהוי לשוני אינו רלוונטי", ונועד לנתונים שאינם שפה אנושית כלל, כגון קריאות בעלי חיים.[14]
בנוסף, 520 קודים בטווח qaa–qtz "שמורים לשימוש מקומי". לדוגמה, המתכנתת רבקה בטנקורט מנהלת הקצאת קודים לשפות מתכוננות בטווח זה.[15]לינגוויסט ליסט משתמש בהם לשפות שנכחדו, לדוגמה הם הקצו לאחת מהן ערך גנרי, qnp, פרוטו-שפה תאורטית כלשהי חסרת שם, בכדי שיוכלו לשבץ אותה בתוך עץ משפחה מוּצע תאורטי, עד שיוכרע מעמדה.
הליכי עבודה
טבלת הקודים עבור ISO 639-3 פתוחה לשינויים. כדי להגן על יציבות השימוש הקיים, השינויים המותרים מוגבלים לפעולות האלה:[16]
שינויים במקורות המחקריים של הערך (כולל שמות או מיון בקטגוריות לפי סוג והיקף),
הוספת ערכים חדשים,
מחיקת ערכים כפולים או שגויים,
מיזוג ערך אחד או יותר לערך אחר,
ופיצול ערך שפה קיים למספר ערכי שפה חדשים.
הקוד המוקצה לשפה אינו משתנה, אלא אם כן ישנו שינוי בזיהוי השפה או בשמה.[17]
השינויים נעשים במועד שנתי קבוע מראש, וכל בקשה פתוחה לפחות שלושה חודשים להערות הציבור טרם קבלתה.
באתר של ISO 639-3 יש תיאורים של "תחומי הגדרה"[18] עבור ישויות לשוניות (לנגואיד) וסוגי שפות,[19] המסבירים אילו מושגים נמצאים בתחום המקודד ובאילו קריטריונים צריך לעמוד. לדוגמה, ניתן לקודד שפות מתוכננות, אך רק אם הן מיועדות לתקשורת אנושית ובעלות גוף ספרותי, ובכך נמנעות בקשות להקצאת קודים עבור המצאות אידיוסינקרטיות.
ביקורת
הבלשנים מורי, פוסט ופרידמן העלו ביקורות שונות על תקן ISO 639 בכלל, ובפרט על 639-3:[17]
לטענתם, הקודים בתקן הם בעייתיים, כי בעוד שרשמית הם תוויות טכניות ושרירותיות, הם נגזרים לעיתים קרובות מקיצורים לשמות השפות – אשר לעיתים נובעים מכינויי גנאי לעם או לשפתו – ובכך לשמר או לקבע ביטויים פוגעניים. לדוגמה, השפה האומוטיתיֵם (או יֵמְסָה), שדוברה בממלכת ג'אנג'רו (כיום אתיופיה) קיבלה את הקוד "jnj", שנגזר משם הממלכה בפי עמים אתיופים אחרים (שם חיצוני, אקסונים), שנעשה בו שימוש פוגעני, ולא על פי השם העצמי (אנדונים) של דוברי השפה עצמם, "יֵם" או "יֵמְסָה". (עם זאת, ניתן לשנות קודים באמצעות הגשת בקשה באתר SIL).
ניהול התקן נעשה באופן בעייתי, כיוון ש-SIL הוא ארגון דתי מיסיונרי, ורמת השקיפות והאחריות שלו אינ מספקת. ההחלטות בדבר מה ראוי לקידוד כשפה מתקבלות באופן פנימי בארגון. אמנם תרומה מבחוץ עשויה להתקבל בברכה, אך ההחלטות עצמן אינן שקופות, ובלשנים רבים ויתרו על הניסיון לשפר את התקן.
זיהוי קבוע של שפה אינו תואם את אחת התכונות המרכזיות של שפות אנוש: הן מִשְתנות.
לעיתים קרובות לא ניתן להבחין בין שפות לניבים בקפידה, וניתן לחלק רצף ניבים בדרכים רבות; בעוד שהתקן מתיר בחירה חד פעמית. הבחנות כאלה מבוססות לרוב על גורמים חברתיים ופוליטיים.
רשויות המקבלות החלטות לגבי זהותם ושפתם של אנשים, המשתמשות בתקן 3–639, אינן בקיאות בבלשנות, והן עלולות לא להבין ולעשות בו שימוש לרעה, ובכך לא להכיר – ואף לבטל – את זכותם של דוברי השפה להזדהות כקבוצה אתנית או להזדהות עם שפתם כייחודית. למרות שארגון SIL טוען שהוא רגיש לנושאים אלה, בעיה זו טמונה באופיו של תקן אחיד, אשר עשוי לשמש באופן שהארגונים ISO ו-SIL אינם מתכוונים לו.
מרטין הספלמאת הסכים עם ארבע מנקודות אלה, אך לא עם הנקודה בנושא השתנותה של שפה.[20] הוא חולק על כך, כי לטענתו כל מחקר תיאורי של שפה דורש זיהוי ומיון שלה, ושלבים שונים של שפה ניתנים לזיהוי בקלות. הוא מציע שבלשנים ישתמשו בקידוד כבר בשלב זיהוי הישות הלשונית, בטרם הבנת מעמדן (לנגואיד), שכן "רק לעיתים רחוקות זה משנה לבלשנים אם מה שהם מדברים עליו הוא שפה, ניב או משפחת שפות קרובות זו לזו". הוא גם מעלה את השאלה, האם תקן ISO מתאים לזיהוי שפות, שכן זהו ארגון תעשייתי, בעוד שהספלמאת רואה בתיעוד ובמינוח של השפה עבודה מדעית. הספלמאת מציין את הצורך המקורי במזהי שפה מתוקננים (שעברו סטנדרטיזציה) שכן הן בעלות "משמעות כלכלית לתרגום וללוקליזציה של תוכנות", אשר לשמם נוצרו תקני 1–639 ו-2–639. עם זאת, הוא מעלה ספקות לגבי השאלה, האם התעשייה זקוקה לכיסוי המקיף שמספק תקן 3–639, גם כיוון שהוא מטפל ב"שפות אשר בקושי מוכרות, של קהילות קטנות, שלעולם או כמעט אף פעם אינן נכתבות ולעיתים קרובות נמצאות בסכנת הכחדה".
התקן ePub 3.0 (הוצאת ספרים אלקטרונית פתוחה) למטא-דאטה של שפה[25] משתמש ברכיבי מטא-דאטה של דבלין קור. רכיבי מטא-דאטה לשוניים אלה ב-ePubs חייבים להכיל קודי שפה RFC 5646 תקינים.[25]RFC 5646 מורה על ISO 639-3 עבור שפות ללא קודי IANA קצרים.
רשות הקצאת המספרים באינטרנט (IANA). צוות הבִּנְאוּם של W3C ממליץ להשתמש ברישום תגי-המשנה לשפות של IANA לבחירת קודים לשפות.[27] רישום תגים אלה[28] תלוי בקודי ISO 639-3 עבור שפות שלא היו להן בעבר קודים בתקן ISO 639.
Good, Jeff; Cysouw, Michael (2013). "Languoid, doculect, and glossonym: formalizing the notion 'language'". Language Documentation & Conservation. 7: 331–359.