فایل متنی روبات برای موتور های جستجو
اگر شما مدیر یک وب سایت اینترنتی باشید احتمالاً با فایل
Robot.txt برخورد کرده اید یا حداقل درباره آن شنیده
اید در این مقاله می خواهیم کمی بیشتر درباره این فایل مزایای آن و بدفهمی هایی که
در مورد آن وجود دارد صحبت کنیم.
این فایل در حقیقت یک فایل متنی است که به موتور های جستجو می
گوید کجا ها را نباید بکاود و در لیست خود اضافه کند. حتی شما می توانید یک
موتور جستجو را از زیر و رو کردن وب سایت خود بر حذر کنید اما این فایل هیچ
الزامی برای آن موتور جستجو ایجاد نمی کند و هیچ ضمانتی نیست که نرم افزار های
کاونده موتور های جستجو از دستورات این فایل پیروی کنند ولی به هر حال موتور
های جستجوی بزرگ و معتبر به این فایل اهمیت می دهند و از آن استفاده می کنند.
چرا باید از آن استفاده کنید؟
هدف موتور های جستجو جمع آوری محتویاتی است که قرار است به
کاربران شما ارائه شود بنابراین لازم نیست مثلاً کد های برنامه های وب سایت شما توسط
موتور جستجو کاوش شود توسط موتور جستجو کاوش شود این کار دو مشکل به وجود می
آورد
اول اینکه به سرور وب سایت شما بار اضافه تحمیل می کند و سرعت سرور کاهش می
یابد و در همین هنگام اگر کاربران هم در حال بازدید از سایت شما یا در حال
دانلود فایل های حجیم باشند این مشکل بیشتر به چشم می آید. دوم اینکه
بعضی کد های وب سایت شما در اختیار دیگران می افتد که از نظر امنیتی اصلاً جالب
نیست هر چند این راه کار به عنوان یک راهکار امنیتی به هیچ وجه کامل نیست و شما
باید تنظیمات لازم را برای محدودیت دسترسی به این بخش در کنترل پنل سایت خود
انجام دهید.
چگونه این فایل را ایجاد کنیم؟
ایجاد یک فایلRobots.txt بسیار
ساده است. Robot.txt چیزی جز یک فایل
ASCII متنی ساده که در شاخه اصلی وب سایت شما قرار
می گیرید نیست. به عنوان مثال اگر نام وب سایت شما
www.yadbegir.com باشد فایل
Robots.txt شما باید در مسیر
www.yadbegir.com/robots.txt
قرار گیرد. برای کسانیکه نمی دانند یک فایل ASCII
متنی چیست باید بگویم یک فایل متنی ساده است که با notepad
ویندوز به راحتی می توانید آنرا ایجاد نمایید.
در این فایل اصولاً نام کاونده های موتور جستجو در یک خط ذکر
می شود و در خطوط بعدی نام شاخه ها یا فایل هایی که کاوش آنها مجاز نیست می آید
که هر کدام را باید در یک خط جداگانه ذکر نمایید. شما به جای نام کاونده موتور
جستجو می توانید از علامت * استفاده کنید بدون اینکه برای هر کدام نام جداگانه
ای ذکر نمایید. و به خاطر داشته باشید که فایل Robots.txt
یک فایل ممانعت کننده یا محدود کننده است و به این طریق شما نمی توانید موتور
جستجو را ملزم کنید که دایرکتوری یا فایل خاصی را در لیست خود اضافه کند.
به عنوان مثال می توانید این را در فایل
Robots.txt خود قرار دهید:
User-agent: *
Disallow:/cgi-bin/
دو خط بالا را اگر به فایل
Robots.txt خود اضافه نمایید به همه کاوشگر های موتور های جستجو گفته
اید که اجازه ندارند به دایرکتوری و محتویات آن cgi-bin
دسترسی داشته باشند.
اگر موتور جستجوی بخصوصی مانند google
image را در نظر داشته باشید که تصاویر وب سایت شما را جمع آوری و لیست
می کند و بخواهید از دسترسی آن به تصاویر وب سایت خود جلوگیری نمایید می توانید
این دستورات را به فایل خود اضافه نمایید.
User-agent: google-Image
Disallow:/
همچنین می توانید در چند خط چندین دستور
Disallow
داشته باشید و برای چندین موتور جستجو مسیر هایی را مشخص کنید در اینجا نمونه
از یک فایل بزرگ تر را می بینید.
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
User-agent: Googlebot-Image
Disallow: /
اولین بلوک از این فایل همه موتور های جستجو را از دسترسی به
دایرکتوری های images و cgi-bin
باز می دارد. دومین بلوک به روبوت کاونده Googlebot-Image
می گوید که اجازه دسترسی به هیچ دایرکتوری از سایت را ندارد.
شما حتی می تواند به موتور های جستجو بگویید که یک فایل خاص
را از لیست جستجوی خود حذف کند. به عنوان مثال اگر نمی خواهید موتور جستجوی
تصاویر گوگل عکس خاصی را در لیست خود اضافه نماید و اگر فرض کنیم نام این فایل
mymugshot.jpg باشد در این صورت با افزودن این خطوط
به فایل خود می توانید این کار را انجام دهید.
User-agent: Googlebot-Image
Disallow: /images/mymugshot.jpg
به خاطر داشته باشید حتماً /
را اضافه کنید چون نشان دهنده یک دایرکتوری است. اگر به سادگی وارد کنید:
User-agent: *
Disallow: /privatedata
در این صورت همه موتورهای جستجو را از دسترسی به هر
آنچه که در داخل دایرکتوری به نام
privatedata باشد باز می دارید.
از کجا می توانم نام روبوت ها را پیدا کنم؟
اگر بخواهید موتور جستجوی خاصی را برای دسترسی به وب سایت
خود محدود کنید باید نام آنرا دقیقا بدانید برای این منظور بهترین راه این است
که وب سایت آن موتور جستجو را بازدید کنید. موتور های جستجوی معتبر معمولاً
صفحاتی دارند که در آن جزییات کار را به شما ارائه می دهد تا بتوانید برای آنها
فایل ها و دایرکتوری های غیر مجاز را مشخص کنید.
اشتباهات معمول
در اینجا اشتباهاتی که در این زمینه رایج است را بررسی می
کنیم.
1- هیچ ضمانتی برای کارایی این فایل متنی وجود ندارد
همانطور که قبلا هم گفتم فایل های
robots.txt یک سری فایل استاندارد برای جلوگیری از کاوش فایل ها توسط
موتور های هستند ولی بعضی موتور های جستجو خود را برای خواندن این فایل ها اذیت
نمی کنند و هیچ ضمانتی نیست که به این روش موتور های جستجو را از دسترسی فایل
ها یا دایرکتوری های مورد نظر خود باز دارید. اگر می خواهید واقعاً می خواهید
دسترسی به یک دایرکتوری را محدود نمایید باید از فایل .htaccess
استفاده کنید.
2- دایرکتوری ها محرمانه خود را لیست نکنید.
هر کسی می تواند به فایل robots.txt
شما دسترسی داشته باشد مثلاً کافیست این آدرس را در مرورگر خود وارد کند
http://www.yadbegir.com/robots.txt
بعضی مدیران سایت تازه کار لیستی از فایل ها و دایرکتوری های
محرمانه خود را در این فایل قرار می دهند تا از دسترسی موتور های جستجو خارج
شوند ولی غافل از اینکه بعضی افراد و بعضی روبوت های فرستنده هرزنامه بدنبال
چنین آدرس هایی می گردند. مراقب باشید به این روش امنیت وب سایت خود را به خطر
نیندازید.
3- فقط یک دایرکتوری یا فایل برای هر خط
سعی نکنید در هر خط یا دستور Disallow
بیش از یک فایل یا دایرکتوری را مشخص کنید. چون به احتمال زیاد این دستور کار
نخواهد کرد و طبق استاندارد روبوت های کاونده فقط یک برای هر خط یک دستور و یک
عبارت Disallow قبول می کنند.
آیا حتما باید این فایل را ایجاد کنیم؟
حتی اگر نخواهید هیچ موتور جستجویی را محدود کنید فقط کافیست
این دستور را در فایل خود ایجاد نمایید.
User-agent: *
Disallow:
به این ترتیب شما یک فایل robots.txt
دارید که بوسیله آن به موتور جستجو گفته اید می تواند همه فایل ها و دایرکتوری
های شما را بکاود. به این ترتیب حداقل بهره ای که خواهید برد این است که با هر
بار درخواست موتور جستجو برای این فایل متنی خطای 404 لود نمی شود و چند کیلو
بایت از پهنای باند خود را صرفه جویی کرده اید. و هم چنین از آمار شما یک آدرس
خطا کاسته می شود که این هم در رانکینگ موتور جستجو اثری مثبت دارد.
علی یزدی مقدم
اين مقاله
اختصاصاً براي ياد بگير دات كام تهيه شده است و استفاده از آن فقط با ذكر نام
نويسنده يا مترجم و نام ياد بگير دات كام همراه با لينك آن مجاز است
|