Share to: share facebook share twitter share wa share telegram print page

 

Tingkat (kuantitas logaritmik)

Rasio Log – pengenalan informal


Lewati ke konten

Rasio Log – pengenalan informal

Dalam versi terbaru CQPweb (v 3.1.7) diperkenalkan statistik baru untuk kata kunci, kolokasi, dan kata kunci, yang disebut Rasio Log .

“Rasio Log” sebenarnya adalah judul singkatan buatan saya sendiri untuk sesuatu yang lebih tepat didefinisikan sebagai log biner dari rasio frekuensi relatif atau log biner dari risiko relatif . Selama berbulan-bulan saya mengembangkan penambahan ini, orang-orang terus mengatakan kepada saya bahwa saya memerlukan label yang bagus dan mudah dipahami untuk pengukuran ini, dan mereka memang benar. Jadi Rasio Log . Tapi apa itu Rasio Log?

Rasio Log adalah upaya saya untuk menyarankan statistik yang lebih baik untuk kata kunci/tag kunci daripada kemungkinan log, yang merupakan statistik yang biasa digunakan. Masalah dengan prosedur yang diterima ini adalah log-likelihood merupakan ukuran signifikansi statistik – yang memberitahu kita seberapa banyak bukti yang kita miliki untuk perbedaan antara dua korpora. Namun, hal ini tidak memberi tahu kita seberapa besar/pentingnya suatu perbedaan. Namun sering kali kita ingin tahu seberapa besar perbedaannya!

Misalnya, jika kita melihat 200 kata kunci teratas dalam sebuah daftar, kita ingin melihat kata-kata “paling penting”, yaitu kata-kata yang perbedaan frekuensinya paling besar. Namun mengurutkan daftar berdasarkan log-likelihood tidak memberikan kita hal tersebut – hal ini memberikan kita kata-kata yang paling banyak kita buktikan, meskipun perbedaan sebenarnya cukup kecil.

Statistik Rasio Log adalah statistik “ukuran efek”, bukan statistik signifikansi: statistik ini menunjukkan seberapa besar perbedaan antara dua korpora untuk kata kunci tertentu. Statistik ini juga sangat transparan sehingga mudah untuk memahami cara penghitungannya dan mengapa statistik tersebut mewakili besarnya perbedaan.

Saat kami menyajikan frekuensi korpus, kami biasanya memberikan frekuensi relatif (atau kadang-kadang disebut frekuensi yang dinormalisasi): frekuensi ini sama dengan frekuensi absolut, dibagi dengan ukuran korpus atau subkorpus. Kita sering mengalikannya dengan faktor normalisasi – 1.000 atau 1.000.000 adalah faktor yang paling umum – namun sebenarnya ini opsional dan hanya untuk tujuan presentasi.

Setelah kita membuat suatu frekuensi menjadi frekuensi relatif dengan membaginya dengan ukuran korpus, kita dapat membandingkannya dengan frekuensi relatif dari item yang sama dalam korpus yang berbeda. Cara termudah untuk melakukannya adalah dengan mengatakan berapa kali lebih besar frekuensi relatif dalam satu korpus dibandingkan dengan korpus lainnya, yang kita hitung dengan membagi satu frekuensi relatif dengan frekuensi relatif lainnya. Misalnya, jika frekuensi relatif suatu kata adalah 0,0006 di Korpus A dan 0,0002 di Korpus B, maka kita dapat mengatakan bahwa frekuensi relatif di Korpus A tiga kali lebih besar daripada di Korpus B (0,0006 0,0002 = 3).

Membagi satu angka dengan angka lainnya menghasilkan rasio dua angka, sehingga kita dapat menyebut ukuran perbedaan antara dua korpora ini sebagai rasio frekuensi relatif (para ahli statistik sering menyebutnya sebagai risiko relatif , karena alasan yang tidak akan saya bahas di sini) , dan, seperti yang sudah saya jelaskan, ini hanya memberitahu kita berapa kali lebih sering kata tersebut ada di Corpus A dibandingkan di Corpus B – jadi ini adalah statistik yang sangat transparan dan mudah dipahami.

Kita dapat menggunakan rasio frekuensi relatif sebagai statistik keyness, tetapi menurut saya, akan berguna untuk mengubahnya terlebih dahulu menjadi logaritma (“log” singkatnya) – khususnya, logaritma ke basis 2 atau logaritma biner. Kenapa melakukan ini? Berikut cara kerja pencatatan log rasio:

  • Sebuah kata memiliki frekuensi relatif yang sama di A dan B – log biner rasionya adalah 0
  • Sebuah kata 2 kali lebih umum di A daripada di B – log biner rasionya adalah 1
  • Sebuah kata 4 kali lebih umum di A daripada di B – log biner rasionya adalah 2
  • Sebuah kata 8 kali lebih umum di A daripada di B – log biner rasionya adalah 3
  • Sebuah kata 16 kali lebih umum di A daripada di B – log biner rasionya adalah 4
  • Sebuah kata 32 kali lebih umum di A daripada di B – log biner rasionya adalah 5

Artinya, setelah kita mengambil log biner, setiap titik mewakili penggandaan rasio. Hal ini sangat berguna untuk membantu kita fokus pada besarnya perbedaan secara keseluruhan (4 vs. 8 vs. 16) daripada perbedaan yang cukup berdekatan (misalnya 4 vs. 5 vs. 6). Penggunaan log biner ini sangat familiar dalam linguistik korpus – ukuran Informasi Bersama yang umum digunakan, yang berkaitan erat dengan rasio frekuensi relatif, juga dihitung menggunakan log biner.

Jadi sekarang kita telah sampai pada ukuran kita – log biner dari rasio frekuensi relatif , atau disingkat Rasio Log .

Jika Anda mengikuti penjelasan di atas, maka Anda mengetahui semua yang perlu Anda ketahui untuk menginterpretasikan skor Rasio Log. Jika Anda tidak mengikutinya, inilah kesimpulan penting: setiap poin tambahan dari skor Rasio Log mewakili dua kali lipat ukuran perbedaan antara dua corpora, untuk kata kunci yang sedang dipertimbangkan.

Saat kita menggunakan Log Ratio untuk kolokasi, interpretasinya sama persis, namun diterapkan pada zona di sekitar node: setiap poin tambahan dari Log Ratio Score mewakili dua kali lipat ukuran perbedaan antara frekuensi kolokasi di dekat node dan frekuensinya di tempat lain. . Hasilnya adalah ukuran kolokasi yang sangat mirip dengan Saling Informasi.

Keuntungan lain dari Rasio Log adalah dapat digunakan untuk kata kunci dan juga kata kunci, yang kemungkinan besar tidak dapat digunakan oleh log. Rasio Log nol atau hampir nol menunjukkan kata yang “terkunci” antara Corpus A dan Corpus B. Akibatnya, versi baru CQPweb memungkinkan Anda melihat kata kunci – sepengetahuan saya, alat corpus umum pertama yang memungkinkan hal ini .

Pembahasan yang lebih formal tentang Rasio Log akan menjadi inti presentasi saya di konferensi ICAME akhir minggu ini. Sebuah artikel jurnal akan menyusul pada waktunya.

BlogBeritaRiset

log binercqpwebukuran efekkata kuncikata kuncirasio lognormalisasiperbandinganstatistik

Andrew Hardie

POSTING SEBELUMNYAPanggilan untuk Partisipasi: Sekolah Musim Panas ESRC dalam Pendekatan Corpus terhadap Ilmu Sosial

POSTING BERIKUTNYA Jonathan Culpeper berbicara 'Sarkasme' malam ini di The One Show


Tentang

CASS adalah Pusat yang dirancang untuk membawa metode baru dalam studi bahasa – pendekatan korpus – ke berbagai ilmu sosial.

Kontak

CASS@lancs.ac.uk

Gedung FASS, Universitas Lancaster

Lancaster, LA1 4YW

@CorpusSocialSci

Postingan Terbaru

  • Program inovasi CASS: Fitur baru di #LancsBox X
  • Kata, kata, kata: Kamus Frekuensi baru bahasa Inggris British
  • Pelatihan Analisis Data Bahasa: langsung dari Kastil Lancaster
  • Sebuah Ode untuk CL2023 di Universitas Lancaster
  • Twitter
  • Youtube

Hak Cipta CASS, Universitas Lancaster © 2023.

Kembali kehalaman sebelumnya


Index: pl ar de en es fr it arz nl ja pt ceb sv uk vi war zh ru af ast az bg zh-min-nan bn be ca cs cy da et el eo eu fa gl ko hi hr id he ka la lv lt hu mk ms min no nn ce uz kk ro simple sk sl sr sh fi ta tt th tg azb tr ur zh-yue hy my ace als am an hyw ban bjn map-bms ba be-tarask bcl bpy bar bs br cv nv eml hif fo fy ga gd gu hak ha hsb io ig ilo ia ie os is jv kn ht ku ckb ky mrj lb lij li lmo mai mg ml zh-classical mr xmf mzn cdo mn nap new ne frr oc mhr or as pa pnb ps pms nds crh qu sa sah sco sq scn si sd szl su sw tl shn te bug vec vo wa wuu yi yo diq bat-smg zu lad kbd ang smn ab roa-rup frp arc gn av ay bh bi bo bxr cbk-zam co za dag ary se pdc dv dsb myv ext fur gv gag inh ki glk gan guw xal haw rw kbp pam csb kw km kv koi kg gom ks gcr lo lbe ltg lez nia ln jbo lg mt mi tw mwl mdf mnw nqo fj nah na nds-nl nrm nov om pi pag pap pfl pcd krc kaa ksh rm rue sm sat sc trv stq nso sn cu so srn kab roa-tara tet tpi to chr tum tk tyv udm ug vep fiu-vro vls wo xh zea ty ak bm ch ny ee ff got iu ik kl mad cr pih ami pwn pnt dz rmy rn sg st tn ss ti din chy ts kcg ve 
Prefix: a b c d e f g h i j k l m n o p q r s t u v w x y z 0 1 2 3 4 5 6 7 8 9