ca Automated Similarity Judgment Program

Automated Similarity Judgment Program
Productor	Max-Planck-Institut für Menschheitsgeschichte ( Alemanya)
Idiomes	Anglès
Accés
Cost	Lliure
Cobertura
Disciplines	Lingüística comparativa

L'Automated Similarity Judgment Program (ASJP) és un projecte col·laboratiu que aplica enfocaments computacionals a lingüística comparada mitjançant una base de dades de llistes de paraules. La base de dades és d'accés obert i consta de llistes de vocabulari bàsic de 40 ítems per a més de la meitat de les llengües del món.^[1] S'està ampliant contínuament. A més dels aïllaments i llenguatges de grups genealògics demostrats, la base de dades inclou pidgins, criolls, llengües mixtes i llengües construïdes. Les paraules de la base de dades es transcriuen a una ortografia estàndard simplificada (ASJPcode).^[2] La base de dades s'ha utilitzat per estimar les dates en què les famílies lingüístiques han divergit en llengües filles mitjançant un mètode relacionat amb, però encara diferent de LA glotocronologia,^[3] per determinar la pàtriad (Urheimat) de la protollengua,^[4] investigar el simbolisme fonètic,^[5] avaluar diferents mètodes filogenètics,^[6] i molts altres propòsits.

L'ASJP no és àmpliament acceptat entre els lingüistes històrics com a mètode adequat per establir o avaluar relacions entre famílies de llengües.^[7]

Forma parat del projecte Cross-Linguistic Linked Data organitzat pel Max-Planck-Institut für Menschheitsgeschichte.^[8]

Història

Objectius originals

L'ASJP es va desenvolupar originalment com un mitjà per avaluar objectivament la semblança de paraules amb el mateix significat en diferents llengües, amb l'objectiu final de classificar les llengües computacionalment, basant-se en les semblances lèxiques observades. En el primer article ASJP,^[2] dues paraules semànticament idèntiques de llengües comparades es van jutjar similars si presentaven almenys dos segments de so idèntics. La similitud entre les dues llengües es va calcular com un percentatge del nombre total de paraules comparades que es van jutjar com a similars. Aquest mètode es va aplicar a llistes de paraules de 100 ítems per a 250 idiomes de famílies lingüístiques, incloent austroasiàtics, indoeuropeus, maies, i muskogis.

Consorci ASJ

El consorci ASJP, fundat al voltant del 2008, va implicar al voltant de 25 lingüistes professionals i parts interessades que treballaven com a transcriptors voluntaris i/o que amplien l'ajuda al projecte d'altres maneres. La principal força motriu darrere del consorci era Cecil H. Brown. Søren Wichmann és el curador diari del projecte. Un tercer membre central del consorci és Eric W. Holman, que ha creat la majoria del programari utilitzat en el projecte.

Llistes de paraules més curtes

Tot i que les llistes de paraules utilitzades es basaven originalment en la llista de 100 ítems llista Swadesh, es va determinar estadísticament que un subconjunt de 40 dels 100 ítems produïa uns resultats classificatoris tan bons si no una mica millors que tota la llista.^[9] Llavors les llistes de paraules reunien només 40 ítems (o menys, quan falten atestacions d'alguns).

Distància Leveshtein

En articles publicats des del 2008, ASJP ha emprat un programa de judici de semblança basat en la distància de Levenshtein (LD). Es va trobar que aquest enfocament produïa millors resultats classificatius comparats amb l'opinió dels experts que el mètode utilitzat inicialment. LD es defineix com el nombre mínim de canvis successius necessaris per convertir una paraula en una altra, on cada canvi és la inserció, supressió o substitució d’un símbol. Dins de l'enfocament de Levenshtein, les diferències en la longitud de les paraules es poden corregir dividint LD entre el nombre de símbols del més llarg de les dues paraules comparades. Això produeix LD normalitzat (LDN). Un LDN dividit (LDND) entre les dues llengües es calcula dividint el LDN mitjà per a tots els parells de paraules que impliquen el mateix significat pel LDN per tots els parells de paraules amb significats diferents. Aquesta segona normalització pretén corregir la semblança casual.^[10]

Llista de paraules

L'ASJP usa la següent llista de 40 paraules.^[11] És similar a la Llista Swadesh–Yakhontov, però té algunes diferències.

Parts del cos

ull
orella
nas
llengua
dent
mà
genoll
sang
tap
pit (de dona)
fetge
pell

Animals i plantes

poll
gos
peix (substantiu)
banya (part animal)
arbre
full

Gent

persona
nom (substantiu)

Naturalesa

sol
estrella
aigua
foc
pedra
Camí
muntanya
nit (hora fosca)

Verbs i adjectius

beure (verb)
morir
veure
escoltar
menja
nou
ple

Numerals i pronoms

un
dos
Jo
vostè
nosaltres

Codi ASJP

La versió ASJP del 2016 utilitza els símbols següents per codificar fonemes: p b f v m w 8 t d s z c n r l S Z C j T 5 y k g x N q X h 7 L 4 G ! i e E 3 a u o

Representen 7 vocals i 34 consonants, totes trobades al teclat QWERTY estàndard.

Sons representats per ASJPcode^[2]
ASJPcode	Descripció	IPA
i	vocal posterior alta, arrodonida i sense arrodonir	i, ɪ, y, ʏ
i	vocal frontal mitjana, arrodonida i sense arrodonir	e, ø
I	vocal posterior baixa, arrodonida i sense arrodonir	a, æ, ɛ, ɶ, œ
3	vocal central alta i mitjana, arrodonida i sense arrodonir	ɨ, ɘ, ə,, ʉ, ɵ, ɞ
a	vocal central baixa, sense arrodonir	ɐ
u	vocal posterior baixa, arrodonida i sense arrodonir	ɯ, u
o	vocal mitjana i baixa, arrodonida i sense arrodonir	ɤ, ʌ, ɑ, o, ɔ, ɒ
p	bilabial i fricativa oclusiva sorda	p, ɸ
b	bilabial i fricativa oclusiva sonora	b, β
m	bilabial nasal	m
f	labiodental fricativa sorda	f
v	labiodental fricativa sonora	v
8	dental fricativa sorda i sonora	θ, ð
4	dental nasal	n̪
t	alveolar oclusiva sorda	t
d	alveolar oclusiva sonora	d
s	alveolar fricativa sorda	s
z	alveolar fricativa sonora	z
c	alveolar africada sorda i sonora	ts, dz
n	alveolar nasal sorda i sonora	n
S	postalveolar fricativa dotfs	ʃ
Z	postalveolar fricativa sonora	ʒ
C	palato-alveolar africada sorda	tʃ
j	palato-alveolar africada sonora	dʒ
T	palatal oclusiva sonora i sorda	c, ɟ
5	palatal nasal	ɲ
k	oclusiva velar sonora	k
g	oclusiva velar sonora	ɡ
x	fricativa velar sorda i sonora	x, ɣ
N	velar nasal	ŋ
q	oclusiva uvular sorda	q
G	oclusiva uvular sonora	ɢ
X	uvular fricativa sorda i sonora, fricativa faringal sorda i sonora	χ, ʁ, ħ, ʕ
7	oclusiva glotal sorda	ʔ
h	fricativa glotal sorda i sonora	h, ɦ
l	alveolar lateral aproximant sonora	l
L	totes les altres laterals	ʟ, ɭ, ʎ
w	bilabial-velar aproximant sonora	w
y	palatal aproximant	j
r	vibrant apico-alveolar sonora i totes les varietats de “sons r”	r, ʀ, etc.
!	totes les varietats de “sons click”	ǃ, ǀ, ǁ, ǂ

Referències

↑ Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). http://asjp.clld.org/
↑ ^2,0 ^2,1 ^2,2 Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.
↑ Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.
↑ Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.
↑ Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.
↑ Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.
↑ Cf. comments by Adelaar, Blust and Campbell in Holman, Eric W., et al. (2011) "Automated Dating of the World’s Language Families Based on Lexical Similarity." Current Anthropology, vol. 52, no. 6, pp. 841–875.
↑ «Cross-Linguistic Linked Data». [Consulta: 22 febrer 2020].
↑ Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
↑ Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).
↑ ^{[enllaç sense format]} http://asjp.clld.org/static/Guidelines.pdf

Fonts

Søren Wichmann, Jeff Good (eds). 2014. Quantifying Language Dynamics: On the Cutting edge of Areal and Phylogenetic Linguistics, p.203. Leiden: Brill.
Brown, Cecil H., et al. 2008. Automated Classification of the World's Languages: A Description of the Method and Preliminary Results. Language Typology and Universals 61(4). November 2008. doi:10.1524/stuf.2008.0026
Wichmann, Søren, Eric W. Holman, and Cecil H. Brown (eds.). 2018. The ASJP Database (version 18).

Enllaços externs

ASJP Database web oficial

[1] Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). http://asjp.clld.org/

[BrownCecil-2] 2,0 ^2,1 ^2,2 Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.

[3] Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.

[4] Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.

[5] Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.

[6] Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.

[7] Cf. comments by Adelaar, Blust and Campbell in Holman, Eric W., et al. (2011) "Automated Dating of the World’s Language Families Based on Lexical Similarity." Current Anthropology, vol. 52, no. 6, pp. 841–875.

[8] «Cross-Linguistic Linked Data». [Consulta: 22 febrer 2020].

[9] Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.

[10] Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).

[11] {[enllaç sense format]} http://asjp.clld.org/static/Guidelines.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Agama	Bahasa	Biografi	Budaya	Ekonomi	Elektronika
Film	Filsafat	Geografi	Indonesia	Ilmu	Lingkungan
Masyarakat	Matematika	Militer	Mitologi	Musik	Olahraga
Pendidikan	Politik	Sastra	Sejarah	Seni	Teknologi

Automated Similarity Judgment Program