چطور می تونم کمکتون کنم؟

robot.txt

موتورهای جستجو گوگل؛یاهو؛بینگ؛ msn و .... برای یافتن و ایندکس کردن صفحات مختلف وب سایت های موجود از روبات های جستجوگر که به (ربات ؛عنکبوت و خزنده‌‌‌ )  spider , robotو crawler معروف هستند استفاده می کنند. Robot.txt یک فایل متنی شامل دستورالعمل درقالب خاص است که با ایجاداین فایل به اسپایدر ها یا کراولر های موتور های جستحو دستور می دهد که کدام فایل یا صفحه در سایت شما را میتوانند چک کنند و ببیند و یا کدام فایل را اجازه ورود به آن ندارنند و یک قرارداد به خزنده های وب است که آیا به تمام صفحات وب شما دسترسی داشته باشند یا بخشی از آن. در غیراین صورت محتوای سایت شما برای عموم قابل مشاهده است. ولی بعضی از عنکبوت های موتورهای جستجو به محتوای این فایل توجه نمی کنند ولی موتورهای جستجویی مانند گوگل؛یاهو توجه کامل به این محتوا دارند و مانند آن عمل می کنند. این فایل به پروتکل محرومیت رباتREP) )هم نامیده می شود.

 

robot.txt وب رند

درتصویر زیردر سایتی که از فایل robot.txt استفاده نشده باشد ربات های موتورهای جستجوهمه ی صفحات رو ایندکس می کنند در صورتی که با استفاده از این فایل می شود این ایندکس شدنها رو برای پوشه های مختلف کنترل کرد .

robot.txt وب رند

صاحبان وب سایت ها از فایل robot.txt برای نحوه دستورالعمل ربات های وب در سایت های خود استفاده می کنند. Robot.txt باید به منظور مفید بودن در پوشه سطح بالا در سرور وب قرار داده شود. مانند : http:/www.yoursite.com/robots.txt 

نحوه ایجاد robot.txt

User-agent:* : این فایل نوع رباتی که قراره محدودیت ایندکس کردن رابرای آن اعمال کنیم مشخص می کند. و علامت * به این معنی است که برای همه خزنده ها این دستور اعمال شود.

مثلا اگر بخواهیم که فقط ربات گوگل این محدودیت را داشته باشد باید این گونه باشد :

User-agent : googlebot

Disallow: برای جلوگیری از ایندکس شدن آدرس خاصی از سایت از disallow استفاده می کنیم. و قسمت های که نباید ایندکس شود را باید با /شروع و در پایان هم به / ختم شود.

Allow : و برای اجازه دادن جست وجو ربات ها در زیرپوشه ای که درون یک پوشه disallow  وجود دارد ازallow استفاده می کنیم .

مثال:

User-agent: *

Disallow: /cgi-bin/

Disallow:/tmp/

Disallow :/~joe /

دراین مثال یعنی همه وب ها را محدود می کنید که اجازه ایندکس کردن در پوشه های cgi-bin و tmpو ~joe را نداشته باشند.

ودر آخر sitemap سایت خودتان را در فایل قرار دهید.تا در معرض دید ربات ها باشد :

Sitemap:http://www.namesite.com/sitemap.xml

وب رند,وبرند,webrend,طراحی سایت,رباتکس,robot.txt,REP,خزنده,اسپایدر,ربات,عنکبوت,کراولر,موتورجستجو,\روتکل محرومیت,استاندارد محرومیت,sitemap,disallow,allow