ไฟล์ Robots.txt เป็นไฟล์ที่แจ้งให้ทาง Google bot หรือ Bot จาก Search engine ทราบว่าควรอนุญาติให้เก็บข้อมูลในหน้าหนึ่ง ๆได้หรือไม่ คุณสามารถใช้ไฟล์ robots.txt เพื่อจัดการวิธีที่โรบ็อตไฟล์เหล่านี้โต้ตอบกับเว็บไซต์ของคุณได้ ยกตัวอย่างเช่น คุณอาจต้องการให้ทุกหน้าบนเว็บไซต์ของคุณรวบรวมข้อมูลเพื่อให้ search engine สามารถบ่งชี้ถึงทิศทางสำหรับเนื้อหาของคุณได้ หรือคุณอาจต้องการรวบรวมข้อมูลเพียงไม่กี่หน้าในเว็บไซต์ของคุณเพื่อไม่ให้ข้อมูลในเว็บถูกนำมาเผยแพร่สู่สาธารณะ ไฟล์ robots.txt จะอยู่ที่path ลำดับแรกของเว็บไซต์ของคุณ (เช่น www.example.com/robots.txt) เมื่อโรบ็อตไฟล์เยี่ยมชมเว็บไซต์ของคุณ อันดับแรกมันจะตรวจสอบไฟล์ robots.txt จากนั้นอ่านคำแนะนำในไฟล์นั้นเพื่อตัดสินใจว่าจะรวบรวมข้อมูลหน้าใดบนเว็บไซต์ของคุณและหน้าใดบ้างที่ควรเลี่ยง เป็นต้น
จุดประสงค์ของไฟล์ Robots.txt คืออะไร?
โรบ็อตเหล่านี้มักถูกนำมาใช้โดย search engine เพื่อบ่งชี้หรือขออนุญาติเว็บไซต์ แต่ยังสามารถใช้เพื่อวัตถุประสงค์อื่นได้ด้วย เช่นการเข้าถึงข้อมูล ซึ่งมันมีประโยชน์ในการบ่งชี้ปัญหาในหน้าเว็บไซต์ของคุณยกตัวอย่างเช่น หน้าที่มีข้อมูลที่ละเอียดอ่อน ไฟล์ robots.txt ยังใช้เพื่อช่วยจัดการเซิร์ฟเวอร์โดยบอกโรบ็อตว่าควรเยี่ยมชมเว็บไซต์ของคุณเมื่อใดและควรรวบรวมข้อมูลบ่อยเพียงใด หรือหน้าไหนควรหลีกเลี่ยง โดยรวมแล้วไฟล์ robots.txt ถือเป็นเครื่องมือที่มีประโยชน์ในการจัดการกับเว็บไซต์ของคุณ
สามารถใช้ไฟล์ Robots.txt อย่างไรได้บ้างไฟล์ robots.txt เป็นไฟล์ข้อความที่สั่งให้โรบ็อต (หรือที่รู้จักในชื่อโรบ็อต เป็นรูปแบบการอนุญาติผ่านการเขียนโค้ดให้ Bot ต่างๆมา crawling ในแต่ละหน้านั้น ๆได้) ทราบถึงวิธีการรวบรวมข้อมูลและบ่งชี้ถึงปัญหาของเว็บไซต์คุณ เมื่อใดที่มีไฟล์ robots.txt อยู่ในเว็บไซต์ โรบ็อตจะตรวจสอบไฟล์ robots.txt ก่อนรวบรวมข้อมูลไฟล์อื่นๆ บนเว็บไซต์ หากไฟล์ robots.txt มีคำสั่งที่บอกโรบ็อตไม่ให้รวบรวมข้อมูลไฟล์หรือไดเร็กทอรีบางไฟล์ โรบ็อตจะปฏิบัติตามคำแนะนำเหล่านั้นทันที ตัวอย่างเช่น หากคุณมีคำสั่ง “ไม่อนุญาต” ในไฟล์ robots.txt ที่บอก Google ไม่ให้รวบรวมข้อมูลไดเรกทอรีในบล็อกของคุณ Google ก็จะไม่รวบรวมข้อมูลไฟล์ใดๆ ในไดเรกทอรีนั้น ๆ เป็นต้น
ไฟล์ robots.txt สามารถใช้ในการทำสิ่งต่างๆ ได้ดังต่อไปนี้
- บล็อกโรบ็อตไฟล์ทั้งหมดจากไฟล์บนเว็บไซต์ของคุณ
- บล็อกโรบ็อตไฟล์บางตัวจากไฟล์หรือไดเร็กทอรีบางตัว
- อนุญาตให้โรบ็อตไฟล์บางตัวรวบรวมข้อมูลบนเว็บไซต์ของคุณ
- แจ้งโรบ็อตไฟล์เมื่อพวกมันสามารถรวบรวมข้อมูลเว็บไซต์ของคุณได้
- แจ้งโรบ็อตไฟล์ว่าพวกเขาควรรวบรวมข้อมูลเว็บไซต์ของคุณบ่อยแค่ไหน
ไฟล์ robots.txt เป็นวิธีที่ง่ายต่อการควบคุมว่าส่วนใดของเว็บไซต์ของคุณควรได้รับการจัดการโดย search engine และสามารถใช้เพื่อช่วยป้องกันปัญหาเกี่ยวกับเนื้อหาที่ซ้ำกัน อย่างไรก็ตาม แม้ว่าไฟล์ robots.txt อาจเป็นวิธีที่มีประโยชน์ในการควบคุมวิธีการช่วยจัดการเว็บไซต์ของคุณ แต่ก็ไม่ได้หมายความว่ามันจะทำงานได้ราบรื่นไปทั้งหมด ดังนั้นอย่าลืมตรวจสอบประสิทธิภาพของเว็บไซต์ใน search engine ก่อนเพื่อให้แน่ใจว่าไฟล์ robots.txt จะทำในสิ่งที่คุณต้องการได้อย่างมีประสิทธิภาพได้