Apa Itu Robots.txt?


Kata-kata 'aneh' yang bakal mimin pake pada postingan ini adalah :

Index / diindex = dirayapi
Meng-index = merayapi
Bot crawler = robot perayap
Search engine = mesin pencari / penelusur (seperti, Google, Yahoo!, Bing)
Page = halaman
Directory / direktori = folder
Public directory = folder publik
Default = bawaan

Sebagai seorang blogger, kalian mungkin sudah pernah mendengar kata "robots.txt". Dan mimin yakin, saat pertama kali mendengarnya, kalian bingung. Begitu pula dengan mimin saat pertama kali mendengarnya. Namun, saat ini insyaAllah mimin sedikit banyak sudah paham apa itu robots.txt dan bagaimana cara kerjanya. Oleh karena itu, lewat artikel ini mimin akan berbagi ilmu yang mimin tahu mengenai robots.txt.

Apa itu Robots.txt?

Robots.txt adalah sebuah file berformat text (.txt) yang wajib dimiliki setiap situs di internet yang didaftarkan pada search engine seperti Google, Yahoo!, dan Bing. Jadi robots.txt sangat erat hubungannya dengan SEO. Robots.txt berfungsi untuk mengontrol halaman atau direktori website mana yang boleh diindex search engine.

Bagaimana cara kerja Robots.txt?

Singkatnya, ketika bot crawler mengunjungi blog / website kalian, file yang pertama kali mereka index adalah file robots.txt yang terletak pada public directory blog / website kalian. File robots.txt itu sendiri berisi perintah-perintah untuk mengatur bot crawler mengenai halaman mana saja yang boleh diindex di search engine. Hal ini tentu saja untuk melindungi halaman sistem kalian untuk diketahui orang-orang, misalnya halaman Administrator.

Sama halnya dengan website pribadi, blog juga memiliki file robots.txt, hanya saja di blog biasanya telah ditetapkan sebagai standar oleh penyedia layanan blognya. Untuk blog Blogspot, default robots.txt diatur seperti ini :
User-agent: Mediapartners-Google
disallow:
User-agent: *
disallow: /search
allow: /
sitemap: http://blogURL/feed/posts/default?orderby=UPDATED

Arti dari kode di atas :
  1. "User-agent: Mediapartners-Google": itu berarti bahwa kode-kode yang ditempatkan di bawahnya hanya berlaku untuk bot crawler Mediapartners-Google yang merupakan bot crawler untuk Google Adsense.
  2. "disallow:": itu berarti tidak ada batasan bot crawler untuk mengindex konten yang ada di blog tersebut.
  3. "User-agent: *": ini berarti kode / perintah yang ditempatkan di bawahnya berlaku untuk semua bot crawler (diwakili dengan tanda bintang '*').
  4. "disallow: /search": melarang bot crawler untuk mengindex URL yang memiliki awalan "http://domainblogmu.com/search".
  5. "allow: /": membiarkan bot crawler mengindex semua page kecuali yang dicantumkan pada perintah disallow.
  6. "sitemap:": ini adalah sitemap dari blog kalian yang diberitahukan kepada bot crawler agar mudah ketika menjelajahinya lagi. Sitemap ini berisi semua URL yang ada di blog kalian untuk diindex oleh bot crawler.
Kesimpulan dari kode-kode di atas adalah :

  • File robots.txt memperbolehkan bot crawler Google Adsense (User-agent: Mediapartners-Google) untuk mengindex semua page pada blog kalian.
  • Mengizinkan semua bot crawler dari search engine manapun (User-agent: *) mengindex semua page blog kalian kecuali page dengan URL yang memiliki awalan http://domainblogmu.com/search.

Bagaimana cara mengatur Robots.txt?

Jika kalian ingin memodifikasi atau mengatur robots.txt maka kalian harus berhati-hati karena kesalahan sedikit saja pada kode robots.txt bisa menyebabkan blog / website kalian tidak terindex oleh search engine. Oleh karena itu, mimin akan menjelaskan bagaimana memodifikasi atau mengatur robots.txt dengan benar.

A. Memblokir URL

Contoh kasus, misal kalian ingin memblokir postingan tertentu agar tidak diindeks oleh semua bot crawler search engine, kalian dapat melakukannya dengan menempatkan kode di bawah ini :
User-agent: *
disallow: /2018/04/url-postingan-yang-ingin-diblokir.html
Kode yang mimin warnai di atas merupakan contoh struktur URL permalink blogspot yang diblokir tanpa menuliskan nama domain blog di depannya.

B. Memblokir Folder / Direktori

Untuk memblokir semua bot crawler search engine mengindeks direktori (beserta isinya) pada website / blog kalian, kalian dapat melakukannya seperti kode yang mimin tuliskan di bawah ini :
User-agent: *
disallow: /foldergambar/
disallow: /folderadmin/

C. Memblokir URL yang Mengandung Karakter / Kata Tertentu

Contoh kasus, mimin mau memblokir semua bot crawler search engine mengindex halaman yang pake karakter tanda tanya (?) yang biasanya dipakai pada URL untuk query string atau pencarian pada web tertentu yang menyebabkan duplikat. Maka mimin akan menggunakan kode di bawah ini :
User-agent: *
disallow: /*?*

D. Memblokir Akses Pada Ekstensi / Format File Tertentu

Contoh kasus, mimin mau memblokir semua bot crawler search engine supaya tidak mengindex file dengan ekstensi (format) tertentu, maka mimin akan menggunakan kode di bawah ini :
User-agent: *
disallow: /*.php$
disallow: /*.js$
disallow: /*.jpg$
disallow: /*.png$
Saat kalian memodifikasi robots.txt, kalian dapat mengatur bot crawler mana saja yang diperbolehkan melakukan index pada blog / website kalian. Berikut mimin kasih list beberapa bot crawler paling terkenal yang sering dipakai orang-orang di luaran sana :

  1. Googlebot - bot crawler dari Google.
  2. Baiduspider - bot crawler dari Baidu.
  3. MSN Bot/Bingbot - bot crawler dari Bing yang dimiliki oleh perusahaan teknologi besar, Microsoft.
  4. Yandex Bot - bot crawler dari Yandex.
  5. Soso Spider - bot crawler dari Soso yang dimiliki oleh perusahaan bernama Tencent Holdings Limited (Cina).
  6. Exabot - bot crawler dari ExaLead.
  7. Sogou Spider - bot crawler dari Sogou.com (Cina)
  8. Google Plus Share - bot crawler dari Google.
  9. Facebook External Hit - bot crawler dari Facebook.
  10. Google Feedfetcher - bot crawler dari Google.
  11. Mediapartners-google - bot crawler Google Adsense.
  12. Yahoo Slurp - bot crawler dari Yahoo!.

Oke, mimin rasa cukup itu saja yang bisa mimin bagi untuk hari ini. Jika kalian masih bingung jangan sungkan-sungkan untuk bertanya langsung ke mimin, bisa lewat kolom komentar di bawah atau langsung kirim lewat Halaman Kontak.

Semoga bermanfaat and.. happy weekend!
Nama

Adobe Master Collection CS6,3,Android,13,Artikel Android,3,Artikel Fotografi,3,Blogging,1,CSS,1,Fotografi,3,HTML,1,iPhone,1,Javascript,1,Lainnya,6,LibreOffice,1,Linux,3,Microsoft Office,11,Microsoft Word 2007,3,Microsoft Word 2013,9,Mobile Legends,1,PHP,1,Root,3,Software,2,TechNews,5,Template Website,1,Tips dan Trik,11,Tutorial,6,Tutorial Adobe Flash CS6,1,Tutorial Android,13,Tutorial Blogger,3,Tutorial Debian,1,Tutorial LibreOffice Calc,1,Tutorial Photoshop CS6,4,Tutorial Ubuntu,4,Tutorial Windows,18,Tutorial XAMPP,2,Website,9,Windows,11,
ltr
item
BEE ID: Apa Itu Robots.txt?
Apa Itu Robots.txt?
Artikel Apa Itu Robots.txt oleh BEE ID
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjsOn1XWRVEBvQuFyUfYdBn1QeR5lhQ76Zn56e-VBGMIdjmVjvrmXdNshS8IIa6gH2CiXytnXC1lnXathULnClztJRsz5_CK4BAS3nCX5EQ9gZVS1jWKRsIvHRLzETOnXachHA2Mk75VQ91/s400/robotstxt.png
https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEjsOn1XWRVEBvQuFyUfYdBn1QeR5lhQ76Zn56e-VBGMIdjmVjvrmXdNshS8IIa6gH2CiXytnXC1lnXathULnClztJRsz5_CK4BAS3nCX5EQ9gZVS1jWKRsIvHRLzETOnXachHA2Mk75VQ91/s72-c/robotstxt.png
BEE ID
https://bee-id.blogspot.com/2018/04/apa-itu-robotstxt.html
https://bee-id.blogspot.com/
https://bee-id.blogspot.com/
https://bee-id.blogspot.com/2018/04/apa-itu-robotstxt.html
true
8629350516673971716
UTF-8
Loaded All Posts Not found any posts VIEW ALL Readmore Reply Cancel reply Delete By Home PAGES POSTS View All RECOMMENDED FOR YOU LABEL ARCHIVE SEARCH ALL POSTS Not found any post match with your request Back Home Sunday Monday Tuesday Wednesday Thursday Friday Saturday Sun Mon Tue Wed Thu Fri Sat January February March April May June July August September October November December Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec just now 1 minute ago $$1$$ minutes ago 1 hour ago $$1$$ hours ago Yesterday $$1$$ days ago $$1$$ weeks ago more than 5 weeks ago Followers Follow THIS PREMIUM CONTENT IS LOCKED STEP 1: Share to a social network STEP 2: Click the link on your social network Copy All Code Select All Code All codes were copied to your clipboard Can not copy the codes / texts, please press [CTRL]+[C] (or CMD+C with Mac) to copy