Query-Likelihood Model

Posted: 3 Desember 2009 in kata
Tag:

Query-Likelihood Model diasumsikan bahwa para pemakai sistem sudah memiliki gambaran yang cukup tentang istilah-istilah yang akan ada di dokumen “ideal” yang akan memenuhi kebutuhan informasi mereka.  Lalu, diasumsikan pula bahwa istilah yang digunakan untuk mencari dokumen atau query, dimana dapat memisahkan yang “ideal” dari yang tidak.

Jadi, query dianggap sebagai perwakilan dari dokumen “ideal” itu. Tugas sistem dengan demikian adalah memperkirakan, bagi setiap dokumen di dalam koleksi, dokumen mana yang paling ideal, atau dalam bentuk rumus:

arg max P(D|Q)=arg max P(Q|D)P(D)

di mana Q adalah query dan D adalah dokumen. Probabilitas P(D) biasanya diasumsikan seragam, dan  P(Q|D) diestimasikan untuk setiap dokumen. Dengan kata lain, kita menduga sebaran probabilitas kata-kata di setiap dokumen dan menghitung probabilitas query sebagai sampel dari sebaran itu. Dokumen kemudian diurutkan sesuai nilai probabilitas ini.

Untuk menghitung P(Q|D) menggunakan Bernoulli multivariate dengan anggapan sebuah query sebagai sebuah vektor dari atribut biner, masing-masing atribut untuk sebuah istilah yang unik di dalam kosakata indeks, dan menandakan ada-tidaknya istilah tersebut di dalam query. Jumlah kemunculan istilah tersebut di dalam query sendiri tidaklah diperhitungkan. Ada dua asumsi yang mendasari model tersebut, yaitu:

  1. Semua atribut bernilai biner. Jika sebuah istilah ada di query, maka atribut yang mewakili istilah tersebut bernilai 1. Jika tidak, bernilai 0.
  2. Istilah dianggap tidak berkaitan (independen) di dalam sebuah dokumen. Asumsi ini mirip dengan asumsi yang digunakan dalam teori-teori IR probabilistrik.

Berdasarkan dua asumsi di atas, maka query likelihood P(Q|D) dapat dirumuskan sebagai hasil dari dua probabilitas, yaitu probabilitas kemunculan istilah pada query dan probabilitas ketidak-munculan istilah itu. Rumusnya:

P(Q|D)=phi P(w|D) phi(1.0 – 0(w|D))

P(w|D) dihitung dengan metode non-parametrik yang memanfaatkan probabilitas rata-rata dari w (words, kata-kata) di dalam dokumen yang mengandungnya. Untuk istilah-istilah yang tidak muncul, maka probabilitas umum di dalam koleksi lah yang digunakan.

Kesimpulan query likelihood model untuk mendapatkan rangking, rumusnya adalah

P(d|q)alfa P(d)phi((1-alfa)P(t|Mc)+lamdaP(t|Md))

Dimana :

t = term

M = model

P = probalilistic

d= dokumen

q = query

contoh soal

diberikan 2 dokumen

d1 = saya pergi ke pasar pingit membeli nasi kuning

d2 = adik pergi ke pasar burung membeli burung merpati

query : pasar pingit

diketahui nilai λ adalah ½

jawab:

P(q|d1) = [(1/8+2/16)/2] X [(1/8+1/16)/2]

à1/8 x 3/32 =  3/256

P(q|d2) adalah = [(1/8+2/16)/2] X [(0/8+1/16)/2]

à1/8 x 1/32 = 1/256

Karena nilai P(q|d1) > daripada P(q|d2) maka

Peringkat d1>d2

Komentar
  1. dida mengatakan:

    wkwkwkwwkwk,…
    wis entuk E,..
    mending WO wae

  2. pace mengatakan:

    wah, tugas IR ku entuk iki

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s