Cara Kerja Spider Dalam Search Engine
Posted on November 22nd, 2007 in Teknologi IT, 1,364 views
Terdapat 3 hal dasar yang dipunyai oleh semua Search Engine yaitu :
- Mengambil kata-kata penting (kata yang terletak di judul, subjudul, meta tags, 100 kata yang sering muncul pada halaman web tersebut, dll) atau gambar dari halaman web.
- Dari kata-kata atau gambar tersebut dibuatkan indexnya untuk mempercepat pencarian.
- Pengguna dapat menggunakan kombinasi dari kata-kata dalam index untuk mencari informasi atau gambar dari internet.
Saat ini Search Engine mampu melakukan index informasi dari halaman web pada kemampuan puncak yaitu ratusan juta halaman web perhari dan merespon berjuta-juta query perhari dari pengguna search engine.
Searches Per Day Top 5 Engines :
- Google - 250 million
- Overture - 167 million
- Inktomi - 80 million
- LookSmart - 45 million
- FindWhat - 33 million
*Source: SearchEngineWatch.com, Feb. 2003
Spider
- Untuk mencari informasi dalam setiap halaman web yang masih ada maka dibutuhkan software khusus yang bernama Spider, dan proses pencarian kata-kata penting dalam setiap halaman web disebut Web Crawling.
- Spider pada masing-masing Search Engine memiliki cara kerja yang berbeda-beda walaupun tujuannya sama.
Cara Kerja Spider
- Spider mengumpulkan informasi dimulai dari website yang paling populer saat itu dan server yang paling banyak diakses.
- Setelah mengambil informasi dari website tersebut kemudian Spider menelusuri semua link pada website tersebut sehingga dari sinilah Spider mulai menyebar kesemua website yang ada di internet.
- Untuk mengetahui suatu website populer atau tidak maka pada search engine google diterapkan algoritma PageRank, yaitu misalnya semakin banyak website lain yang mempunyai link ke website A maka semakin populer website A tersebut.
Untuk website yang memiliki frekuensi update halaman yang tinggi maka diberlakukan 2 aturan:
- Uniform Policy -> Re-visiting semua halaman web dengan frekuensi yang sama.
- Proportional Policy -> Semakin sering halaman web tersebut diupdate maka semakin sering juga halaman tersebut dikunjungi oleh Spider
Akan tetapi untuk halaman web yang sangat terlalu sering diupdate maka Proportional Policy tidak berlaku.
Macam Halaman Web
- Deep Web -> Halaman web yang terdapat query SQL, Oracle, dll atau yang membutuhkan registrasi agar dapat diakses atau halaman yang tidak dilink oleh halaman lain. Biasanya yang termasuk dalam Deep Web adalah web dinamis dan web pribadi.
- Surface Web -> Halaman web yang tidak termasuk dalam Deep Web. Biasanya yang termasuk dalam Surface Web adalah web statis atau web yang tidak menggunakan serverside scripting.
Kelemahan jika menggunakan Spider :
- Membutuhkan bandwidth yang sangat besar.
- Bisa membuat server overload jika lalu lintas informasi dari atau ke server sangat tinggi.
Untuk mengatasi kelemahan diatas maka pada server digunakan rumus jika membutuhkan t detik untuk mendownload sebuah dokumen dari server maka Spider akan menunggu 10*t detik untuk mendownload dokumen berikutnya.
Distributed Spider
- Dikarenakan ketika Spider berjalan membutuhkan bandwidth yang besar dan resource dari server yang besar sehingga bisa menyebabkan server overload, maka digunakan cara 1 Spider dijalankan dari 1 individual komputer.
- Tujuan digunakannya Distributed Spider adalah untuk membagi resource komputasi dan bandwidth yang besar kebanyak individual komputer untuk menjalankan Spider.
- Google menggunakan ratusan individual komputer dari lokasi yang berbeda-beda untuk menjalankan Spider.
Cara Kerja Distributed Spider
- Spider yang berjalan dari sebuah individual komputer memiliki cara kerja yang sedikit berbeda yaitu hanya akan memeriksa url yang diberikan oleh server dan tidak akan menulusuri link yang ada dalam url tersebut.
- Cara kerjanya adalah informasi yang dihasilkan dari spider yang berjalan dari individual komputer dikompresi terlebih dahulu kemudian dikirim ke server, setelah server menerima informasi tersebut kemudian server memberi sebuah url baru ke komputer tersebut.
Spider Milik Google
- Min 3 Spider berjalan sekaligus untuk mencari kata penting atau gambar dari halaman web, setiap Spider mampu menghandle 300 koneksi ke halaman web pada waktu yang bersamaan.
- Pada kemampuan puncak Spider mampu mengakses 100 halaman web per detik dan menghasilkan 600 Kilobytes data untuk setiap detiknya.
- Untuk menentukan website mana yang paling sering dikunjungi oleh pengguna internet maka Google menggunakan Algoritma PageRank.
- Untuk meminimalkan gangguan ketika Spider sedang berjalan maka Google memiliki server dan DNS (Domain Name System) sendiri selain itu Google juga mempunyai ratusan individual komputer untuk menjalankan Spider.
- Spider Google mencari kata-kata penting pada bagian judul halaman web, subjudul, meta tags, dan posisi penting yang lain.
- Untuk mempercepat pencarian maka Spider milik Google mengabaikan kata “a”, “an”, dan “the”.
Related Posts :
- Perbandingan Teknik Search Marketing
- Meningkatkan Link Popularity Website Anda
- Perilaku Pengguna Search Engine
- Cara Meningkatkan Rating Website yang Kita Buat
- The Harder a Link Is to Get, the More Valuable It Might Be
- Faktor Yang Mempengaruhi Google PageRank
- Akses Web Server Menggunakan Modem ADSL
- Top SEO Wordpress Plugin
- Link Dofollow dan Unfollow/Nofollow
- Search Engine Optimization (SEO) di Indonesia




[...] cara kerja robot tersebut??? Setelah mengklak-klik kesana kemari gw mendapatkan artikel ini. Dari artikel tersebut dijelaskan “spider” (yang gw anggap semacam robot pencarian) [...]
wow, luar biasa, salam kenal aja