Oke masuk ke tahap selanjutnya dari artikel sebelumnya, ketika kita melakukan suatu pencarian informasi maka tentu pasti ada batasan/ruang lingkup informasi yang akan kita peroleh. Semisal Google, ruang lingkup pencarian kita adalah seluruh web yang ada di jagat internet ini, WAW. Ruang lingkup pencarian ini selanjutnya akan kita sebut korpus atau koleksi dokumen (teks/suara/citra). Nah, sesuai dengan ilmu yang saya pahami kita akan mempelajari tentang dokumen berbentuk teks.
Sebagai
contoh bentuk korpus itu seperti apa, bisa teman-teman lihat pada artikel yang ini. Ya bentuknya tentu saja sebuah teks yang terdapat pada sebuah file atau
lebih. Kebetulan model korpus yang saya buat pada artikel tersebut adalah file
berformat XML. Inilah yang disebut tahap pembuatan korpus (processing).