Automated Similarity Judgment Program
L'Automated Similarity Judgment Program (ASJP) és un projecte col·laboratiu que aplica enfocaments computacionals a lingüística comparada mitjançant una base de dades de llistes de paraules. La base de dades és d'accés obert i consta de llistes de vocabulari bàsic de 40 ítems per a més de la meitat de les llengües del món.[1] S'està ampliant contínuament. A més dels aïllaments i llenguatges de grups genealògics demostrats, la base de dades inclou pidgins, criolls, llengües mixtes i llengües construïdes. Les paraules de la base de dades es transcriuen a una ortografia estàndard simplificada (ASJPcode).[2] La base de dades s'ha utilitzat per estimar les dates en què les famílies lingüístiques han divergit en llengües filles mitjançant un mètode relacionat amb, però encara diferent de LA glotocronologia,[3] per determinar la pàtriad (Urheimat) de la protollengua,[4] investigar el simbolisme fonètic,[5] avaluar diferents mètodes filogenètics,[6] i molts altres propòsits. L'ASJP no és àmpliament acceptat entre els lingüistes històrics com a mètode adequat per establir o avaluar relacions entre famílies de llengües.[7] Forma parat del projecte Cross-Linguistic Linked Data organitzat pel Max-Planck-Institut für Menschheitsgeschichte.[8] HistòriaObjectius originalsL'ASJP es va desenvolupar originalment com un mitjà per avaluar objectivament la semblança de paraules amb el mateix significat en diferents llengües, amb l'objectiu final de classificar les llengües computacionalment, basant-se en les semblances lèxiques observades. En el primer article ASJP,[2] dues paraules semànticament idèntiques de llengües comparades es van jutjar similars si presentaven almenys dos segments de so idèntics. La similitud entre les dues llengües es va calcular com un percentatge del nombre total de paraules comparades que es van jutjar com a similars. Aquest mètode es va aplicar a llistes de paraules de 100 ítems per a 250 idiomes de famílies lingüístiques, incloent austroasiàtics, indoeuropeus, maies, i muskogis. Consorci ASJEl consorci ASJP, fundat al voltant del 2008, va implicar al voltant de 25 lingüistes professionals i parts interessades que treballaven com a transcriptors voluntaris i/o que amplien l'ajuda al projecte d'altres maneres. La principal força motriu darrere del consorci era Cecil H. Brown. Søren Wichmann és el curador diari del projecte. Un tercer membre central del consorci és Eric W. Holman, que ha creat la majoria del programari utilitzat en el projecte. Llistes de paraules més curtesTot i que les llistes de paraules utilitzades es basaven originalment en la llista de 100 ítems llista Swadesh, es va determinar estadísticament que un subconjunt de 40 dels 100 ítems produïa uns resultats classificatoris tan bons si no una mica millors que tota la llista.[9] Llavors les llistes de paraules reunien només 40 ítems (o menys, quan falten atestacions d'alguns). Distància LeveshteinEn articles publicats des del 2008, ASJP ha emprat un programa de judici de semblança basat en la distància de Levenshtein (LD). Es va trobar que aquest enfocament produïa millors resultats classificatius comparats amb l'opinió dels experts que el mètode utilitzat inicialment. LD es defineix com el nombre mínim de canvis successius necessaris per convertir una paraula en una altra, on cada canvi és la inserció, supressió o substitució d’un símbol. Dins de l'enfocament de Levenshtein, les diferències en la longitud de les paraules es poden corregir dividint LD entre el nombre de símbols del més llarg de les dues paraules comparades. Això produeix LD normalitzat (LDN). Un LDN dividit (LDND) entre les dues llengües es calcula dividint el LDN mitjà per a tots els parells de paraules que impliquen el mateix significat pel LDN per tots els parells de paraules amb significats diferents. Aquesta segona normalització pretén corregir la semblança casual.[10] Llista de paraulesL'ASJP usa la següent llista de 40 paraules.[11] És similar a la Llista Swadesh–Yakhontov, però té algunes diferències.
Codi ASJPLa versió ASJP del 2016 utilitza els símbols següents per codificar fonemes: p b f v m w 8 t d s z c n r l S Z C j T 5 y k g x N q X h 7 L 4 G ! i e E 3 a u o Representen 7 vocals i 34 consonants, totes trobades al teclat QWERTY estàndard.
Referències
Fonts
Enllaços externs
|