Alhamdulillah bisa nulis lagi, kali in masih dari tugas kuliah Temu Kembali Informasi, lumayan buat nambah blog traffic karena temen2 lagi pada nyari hahaha (tertawa jahat). Oke langsung aja, disini kita akan membuat sebuah program peringkasan teks otomatis (auto text summarization) dengan pembobotan tf.idf. Nah apa itu pembobotan tf.idf? kata rumusnya sih :
tf.idf = tf x log(N/df)Masih bingung?? Samaaa, ywd kita langsung aja buat programnya.. :p
dimana,
tf = jumlah term tersebut
N = total dokumen
df = jumlah dokumen yang mengandung suatu term
Oh iya lupa, ini dibuat berbasis web menggunakan bahasa pemrograman PHP tanpa database relasional. Selanjutnya project ini akan saya beri nama "AuTexSum". Langkah-langkah yang akan dilakukan diantaranya :
- Menyiapkan korpus (dokumen) yang akan diringkas - Part 1
- Membuat file indexer.php untuk melakukan pengindeksan (indexing) - Part 1
- Membuat file summarize.php untuk melakukan peringkasan - Part 2
- Membuat file index.php untuk antarmuka sederhana - Part 3
Struktur Folder Project |
Selanjutnya kita akan membuat file indexer.php, kurang lebih isinya seperti ini :
Umumnya pada indexing dilakukan langkah-langkah sebagai berikut :
- tokenisasi (memecah dokumen menjadi kata)
- buang stopwords (membuang kata-kata hubung)
- stemming (membuang imbuhan) - tidak dilakukan
- posting list (menyimpan lokasi kemunculan kata) - tidak dilakukan
- pembobotan (memberi bobot setiap kata yang ada) - dalam kasus ini dengan bobot idf
Jika sudah selesai dan tidak ada yang error, kita langsung ke Part 2.
Thanks banget agan Andre, sangat bermanfaat (buat tugas TKI) :D
BalasHapusWah makasii bu Luksi.. xD
Hapusgan bagus nih artikelnya, izin sedot gan..... oh iya kalau pake metode tf-isf sm nda ya??? :)
BalasHapusIjin modifikasi ya gan buat tugas kuliah. Trimakasih banyak gan bermanfaat sekali buat belajar lebih jauh tentang automatic summary
BalasHapusKalau hanya ingin menampilkan hasil perhitungan tf idf nya saja, gimana gan? #ijin modif buat TA gan
BalasHapusGan nanyak donk... kalau untuk MMR bagaimana ya kodingnya. Tx ya.
BalasHapusbagi stopwords.txt nya dong mas
BalasHapusmakasih bermanfaat...
BalasHapus