Robots.txt คืออะไรกันแน่
เราคงรู้กันดีอยู่แล้วนะครับถึงการทำงานของกูเกิ้ลบอทว่ามันชอบวิ่งไต่ไปตามลิงค์ต่างๆ ไม่ว่าจะเป็นหน้าเว็บไซต์หลักและหน้าเพจต่างๆ ที่อยู่ภายในเว็บไซต์ของเรา ซึ่งการทำงานหลักๆ ของมันก็ไม่มีอะไรมากครับ แค่มันจะกำหนดเส้นทางของกูเกิ้ลบอทว่าต้องการให้เก็บส่วนใดของเว็บไซต์เรา และส่วนไหนทีไม่ต้องการให้บอทเข้าถึงก็สามารถมาบอกมันได้ในไฟล์นี้ครับ ส่วนที่อยู่ของไฟล์ robots.txt ก็จะเก็บอยู่ที่ root เลยครับ ส่วนวิธีการสร้างไฟล์นั้นก็ใช้โปรแกรมพื้นๆ Notepad ที่มีอยู่ในทุกเครื่องนั้นแหละครับ แล้วก็ใส่คำสั่งเพียงไม่กี่ตัวบอทก็จะทำตามคำสั่งเราแล้วครับ
คำสั่งที่เราสามารถกำหนดเข้าถึงของบอทมีดังนี้ ภายในไฟล์ Robots.txt
User-agent:*
Disallow:/
คือไม่ให้บอทของทุก Search Engine เข้ามาเก็บข้อมูล
User-agent:*
Allow:/
ต้องการให้บอทเข้ามาเก็บข้อมูลทั้งเว็บไซต์ของเรา
User-agent: Googlebot
ต้องการให้บอทเฉพาะของกูเกิ้ลเท่านั้นมาเก็บข้อมูลได้
User-agent: msnbot
ต้องการให้บอทเฉพาะของค่าย MSN เท่านั้นเข้ามได้ หรือต้องการ Search Engine รายอื่นเราแค่เปลี่ยนชื่อบอทแค่นั้นครับ
User-agent:* เรียกบอททุกตัวให้เข้ามาได้
Disallow:/foldername ไม่ต้องการให้บอทเข้ามาเก็บโฟเดอร์ที่กำหนด
Disallow:/filename ไม่ต้องการให้บอททุกตัวเข้ามาเก็บชื่อไฟล์ที่กำหนด
Disallow:/*.jpg$ ไม่ต้องการให้บอททุกตัวเข้ามาเก็บไฟล์นามสกุล jpg
ทั้งหมดนี้จะต้องเก็บอยู่ในไฟล์ Robots.txt นะครับ ก็กำหนดเอาว่าเราต้องการให้มันมาเก็บข้อมูลส่วนไหนของเว็บบ้าง ถ้าถามว่าแล้วเว็บดังๆ เขามีกันหรือป่าว เราสามารถเช็คได้ครับ แค่พิมพ์โดเมนแล้วตามด้วยชื่อไฟล์เราก็รู้แล้วล่ะครับ แต่เว็บส่วนใหญ่ก็มีกันทั้งนั้นแหละครับ ผมว่าไม่ว่าเว็บจะใหญ่หรือก็ควรจะศึกษาเทคนิคแบบนี้ไว้นะครับ มีประโยชน์จริงๆ