Tokenisasi

Tokenisasi adalah proses untuk membagi teks yang dapat berupa kalimat, paragraf atau dokumen, menjadi token-token/bagian-bagian tertentu.^[1]^[2] Sebagai contoh, tokenisasi dari kalimat "Aku baru saja makan bakso pedas" menghasilkan enam token, yakni: "Aku", "baru", "saja", "makan", "bakso", "pedas". Biasanya, yang menjadi acuan pemisah antar token adalah spasi dan tanda baca.^[3]

Tokenisasi sering kali dipakai dalam linguistik dan hasil tokenisasi berguna untuk analisis teks lebih lanjut. Contoh program tokenisasi yang dapat diakses dan digunakan secara daring adalah MorphAdorner dan NLTK Tokenizer.^[4]^[5]

Rujukan

^ "Tokenization". nlp.stanford.edu. Diakses tanggal 2021-03-27.
^ "Sentiment Symposium Tutorial: Tokenizing". sentiment.christopherpotts.net. Diakses tanggal 2021-03-27.
^ Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). Model natural language processing untuk perumusan keluhan pasien. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14
^ "Python NLTK Word Tokenization Demo for Tokenizing Text". text-processing.com. Diakses tanggal 2021-03-27.
^ Burns, Philip R. (2013-08-01). "MorphAdorner Word Tokenizer Example". morphadorner.northwestern.edu. Diakses tanggal 2021-03-27.

Artikel bertopik linguistika ini adalah sebuah rintisan. Anda dapat membantu Wikipedia dengan mengembangkannya.

[1] "Tokenization". nlp.stanford.edu. Diakses tanggal 2021-03-27.

[2] "Sentiment Symposium Tutorial: Tokenizing". sentiment.christopherpotts.net. Diakses tanggal 2021-03-27.

[3] Ratnasari, C. I., Kusumadewi, S., & Rosita, L. (2014). Model natural language processing untuk perumusan keluhan pasien. Seminar Nasional Informatika Medis (SNIMed) V (pp. 11-18) hlm. 14

[4] "Python NLTK Word Tokenization Demo for Tokenizing Text". text-processing.com. Diakses tanggal 2021-03-27.

[5] Burns, Philip R. (2013-08-01). "MorphAdorner Word Tokenizer Example". morphadorner.northwestern.edu. Diakses tanggal 2021-03-27.

[1]

[2]

[3]

[4]

[5]