فایل robots.txt چیست؟

پروتکل ربات خروجی، robots exclusion protocol یا همان روبات اسپم (REP) و robots.txt فایل متنی هستند که مدیران وب سایت آن را برای وبسایتشان ایجاد می‌کنند. روبات موتور جستجوعمل خزیدن در صفحات وب سایت را انجام می‌دهد. درواقع کار فایل   robots.txt محدود کردن دسترسی روبات‌های گوگل و سایر موتورهای جستجو به محتویات سایت شما می‌باشد. این روبات‌ها کاملا اتوماتیک عمل می‌کنند و پیش از ورود به هر سایت یا صفحه‌ای از وجودفایل  robots.txt بر روی آن و محدود نبودن دسترسی محتوا مطمئن می‌شوند. تمامی روبات‌های استاندارد در اینترنت به این قوانین و محدودیت‌ها احترام می‌گذارند و صفحات وب سایت شما را بررسی و ایندکس نخواهند کرد.

با وب ساز همراه شوید

ولی روبات‌های اسپم توجهی به این فایل نمی‌کنند. اگر می‌خواهید امنیت محتوایی خاص را حفظ کنید و یا آن را از دید روبات‌های اینترنتی مخفی کنید باید  روی صفحات پسورد بگذارید. در عمل استفاده از فایل robots.txt به شما کمک می‌کند که صفحات سایت را تنها مختص کاربران اینترنتی طراحی کنید و نگران محتوای تکراری، وجود لینک های بسیار در آن صفحه و تاثیر منفی بر سئو سایت نباشید.

با فایلrobots.txt  می‌توانید صفحات بی‌ارزش و کم محتوا را از دید موتورهای جستجو مخفی کنید تا زمان روبات‌ها در سایت شما برای ایندکس کردن این صفحات هدر نرود. شما تنها زمانیکه قصد محدود کردن روبات‌های گوگل را داشته باشید از فایلrobots.txt استفاده می‌کنید و اگر از نظر شما تمام صفحات سایت قابلیت و ارزش ایندکس شدن توسط گوگل را داشته باشند نیازی به این فایل نخواهید داشت. حتی قرار دادن یک فایل خالی با همین نام نیز لزومی ندارد. برای قرار دادن یک فایلrobots.txt شما باید به هاست دسترسی داشته و آن را در ریشه اصلی کپی کنید. اگر به هر دلیل دسترسی شما به سرور محدود شده باشد می‌توانید با قرار دادن تگ‌های متا در هدر صفحه دسترسی روبات به آن را محدود کنید.

برای جلوگیری از ورود تمامی روبات‌های اینترنتی به صفحه از تگ:

robot.txt - crawler - فایل روبوت - روبات گوگل

و برای محدود کردن روبات‌های گوگل از تگ:

robot.txt - crawler - فایل روبوت - روبات گوگل

استفاده کنید. با مشاهده‌ی این تگ در هدر یک صفحه گوگل، بطور کلی آن را از نتایج جستجوی خود خارج خواهد کرد.

برگه تقلب

مسدود کردن خزنده وب از تمامی مطالب

User-agent:*
Disallow: /

جلوگیری از یک خزنده وب خاص از یک پوشه خاص

User-agent:Googlebot
Disallow: /no-google/

جلوگیری از یک خزنده وب خاص از یک صفحه وب خاص

User-agent:Googleebot
Disallow: /no-google/blocked-page.html

پارامتر نقشه سایت

User-agent:*
Disallow:
Sitemap: http://www.example.com/none-standard-location/sitemap.xml

 

بهینگی فرمت

robots.txt  را باید در دایرکتوری سطح بالا از یک وب سرور قرار دهید (در root سایت).

و به این شکل آن را می‌توانید با وارد کردن آدرس مشاهده کنید. به عنوان مثال: http://www.example.com/robots.txt

پیدایش و گسترش فایل robots.txt

(REP) پروتکلی است که در آن مجموعی از استانداردهای وب وجود دارد که این دستورات درواقع برای تنظیم رفتار ربات وب و نمایه سازی موتور جستجو می باشد. روبات اسپم شامل موارد زیر است:

  • REP اصلی از ۱۹۹۴ پدید آمد و در  ۱۹۹۷ گسترش تعریف دستورات خزنده برایtxt به وجود آمد. برخی از موتورهای جستجو پشتیبانی می‌کنند از افزونه‌ها مثل الگوهای URI  (wild cards).
  • در۱۹۹۶ تعریف دستورات نمایه ساز برچسب‌ها برای استفاده در روبات عنصر ایجاد شد.  همچنین Meta به عنوان “ربات متا تگ” شناخته شد. همچنین، موتورهای جستجو از برچسب‌های REP که به همراه X-robots-tag می‌باشند پشتیبانی می‌کنند. مدیران سایت می توانند از برچسب‌های REP در هدر HTTP منابع غیر HTML مانند اسناد PDF و یا تصاویر استفاده کنند.
  • میکروفرمت REL-NOFOLLOW از ۲۰۰۵ مطرح شد و درواقع این دستور تعیین می‌کرد که موتورهای جستجو باید لینک که در آن مسئولیت رسیدگی به یک عنصر است ویژگی  rel وجود دارد را  مقدار nofollow بدهند.

  

تطبیق الگو

گوگل و بینگ هر دو کاراکترهایی برای شناسایی صفحات و یا زیر پوشه‌ها در بحث SEO دارند. این دو کاراکتر ستاره (*) و علامت دلار ($)هستند.

  • * – شان دهنده تعداد حروفکلمات است
  • $ – منطبق با پایان URL است

اطلاعات عمومی

اگر فایل robots.txt یک فایل در دسترس عموم باشد، هر کسی می‌تواند ببینید چه بخش از یک سرور وب مستر را موتورهای جستجو مسدود کرده اند. باید با یک رویکرد امن‌تر مانند حفاظت از رمز عبور استفاده شود.

قوانین مهم

  • در اغلب موارد، روبات‌های متا از پارامترهای “NOINDEX” به عنوان یک راه برای محدود کردن خزنده یا شاخص بندی استفاده می‌کنند.
  • این مهم است که توجه داشته باشید کهخزنده‌های مخرب به احتمال زیاد به طور کاملtxt را نادیده بگیرد و به عنوان مثال، این پروتکل یک مکانیزم امنیتی خوب نیست.
  • تنها یک “disavow link” برای هر URL مجاز می‌باشد.
  • هر زیر دامنه در دامنه ریشه باید یک robot.txt جداگانهداشته باشد.
  • دو کاراکتر خاص برای الگو (* و $) گوگل و بینگ را بپذیرید.
  • نام فایلrobot.txt به بزرگی و کوچکی حروف حساس است. باید از “robots.txt استفاده کنید، نه از “ROBOT>TXT”.
  • فاصله برای جدا کردن پارامترهای پرس و جو (Query) مورد قبول نیست. به عنوان مثال، , “/category/ /product page” نباید در فایل robot.txt به این صورت باشد.

SEO بهترین تمرین

مسدود کردن صفحه

چند راه برای جلوگیری از موتورهای جستجو برای دسترسی به یک دامنه داده شده وجود دارد:

مسدود کردن با robots.txt

این می‌گوید که موتورهای جستجو ممکن است عمل خزیدن به آدرس داده شده را انجام ندهند، اما آنها ممکن است آدرس صفحه را نگه دارند و آن را  index کنند و در نتایج نمایش بدهند.

بلوک با متا NOINDEX

این می‌گوید موتورهای جستجو می توانید از یک صفحه بازدید داشته باشند، اما مجاز به نمایش URL در نتایج جستجو نیستند. این روش توصیه می شود.

بلوکه کردن توسط لینک Nofollowing

این یک روشتقریبا همیشه یک تاکتیک ضعیف است. با استفاده از این روش، موتورهای جستجو ممکن است صفحات در از راه‌های دیگر کشف کنند مثلا : از طریق نوار ابزار مرورگر، لینک از صفحات دیگر، analytics و بیشتر.

چرا متا روبات بهتر از فایل robots.txt است

در زیر یک مثال از فایلrobots.txt  سایت about.com است. توجه داشته باشید که آن‌ها در حال مسدود کردن دایرکتوری / کتابخانه / nosearch/ هستند.

robot.txt - crawler - فایل روبوت - روبات گوگل

حالا توجه کنید که  چه اتفاقی می افتد زمانی که URL در گوگل جستجو می‌شود:

robot.txt - crawler - فایل روبوت - روبات گوگل

گوگل ۲۷۶۰ صفحه directory  disavowed دارد. این موتور به این آدرس‌ها می‌خزد. پس از آن این لینک‌ها در جایی مانند یک لیست سنتی URL به نظر می رسند.

robot.txt - crawler - فایل روبوت - روبات گوگل

البته این یک مشکل زمانی دارد، زمانی که این صفحات لینک تجمع می‌یابند مشکل به وجود می‌آید. به منظور حذف صفحات فرد از شاخص موتور جستجو، متا تگ

<meta name=”robots” content=”noindex”>

در واقع از robots.txt برتر است.

آموزش ساخت فایل robots.txt

یک فایل ساده برای مدیریت روبات‌های اینترنتی از دو قانون اصلی استفاده می‌کند که عبارتند از:
User-agent: نشان دهنده نوع روباتی است که نباید به صفحه دسترسی داشته باشد.
Disallow: بیانگر آدرس صفحه‌ای است که می‌خواهید از دید روبات‌ها پنهان بماند.

با ترکیب این دو دستور شما می‌توانید قوانین مختلفی را برای دسترسی به صفحات داخلی سایت تعریف کنید. به عنوان مثال برای یک user-agent مشخص می‌توان چندین آدرس را معرفی نمود و یا برعکس.

لیست تمامی روبات‌های اینترنتی معتبر در دیتابیس “Web Robots Database” موجود است و شما می‌توانید با قرار دادن نام هر یک بعنوان User-agent قوانین مشخصی برای آنها تعریف کنید و یا با استفاده از کاراکتر * به جای نام در فایل robots.txt یک قانون را برای همه روبات‌ها اعمال کنید؛ مانند:

* :User-agent

Disallow: /folder1/

موتور جستجوی گوگل چندیدن نوع روبات مخصوص بخود دارد که معروفترین آنها با نام Googlebot شناخته می‌شود و وظیفه بررسی و ایندکس صفحات وب را برعهده دارد. روبات Gogglebot-image نیز مسئول بررسی تصاویر سایت‌ها و ایندکس کردن آن‌ها می‌باشد.

User-Agent: Googlebot

Disallow: /folder2/

شما میتوانید به روش های مختلفی قوانین خود را اعمال کنید، میتوان یک صفحه مشخص و یا یک دسته از صفحات را برای یک قانون تعریف نمود. مثال های زیر روش های مختلف استفاده از این قوانین هستند:
برای عدم دسترسی روبات ها به تمام محتویات سایت از کاراکتر / استفاده میکنیم

Disallow: /

برای عدم دسترسی به یک فولدر یا دسته از سایت نام آن را وارد کنید.

Disallow: /blog/

برای اعمال محدودیت روی یک صفحه خاص آدرس دقیق آن را بدون نام سایت وارد کنید.

Disallow: /blog/keyword-planner/

برای محدود کردن یک تصویر بر روی سایت آدرس آن را به همراه User-agent مربوط به آن وارد کنید.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

و برای مخفی کردن تمام تصاویر موجود بر روی سایت از دید موتورهای جستجو از دستور زیر استفاده کنید.

User-agent: Googlebot-Image
Disallow: /

همچنین شما می‌توانید یک نوع فایل مشخص را از دید موتورهای جستجو مخفی نگه دارید، به عنوان مثال برای تصاویری با فرمت gif

User-agent: Googlebot
Disallow: /*.gif$

توجه داشته باشید که فایل robots.txt نسبت به بزرگ و کوچک بودن حروف انگلیسی حساس بوده و آدرس صفحات باید به دقت وارد شوند. پس از ساخت فایل مورد نظر خود و ذخیره آن در فرمت txt آن را بر روی سرور و در ریشه اصلی کپی کنید. قوانین اعمال شده برای روبات‌هایی هستند که از این پس به سایت شما وارد می‌شوند حذف صفحاتی که در گذشته ایندکس شده‌اند از دیتابیس گوگل نیازمند گذشت زمان خواهد بود.

آزمایش Robots.txt در بخش Blocked URLs وبمستر

وبمستر گوگل قسمت مشخصی را برای نمایش صفحاتی از سایت شما که توسط robots.txt دسترسی روبات به آنها محدود شده، در نظر گرفته است. این صفحه با نام Blocked URLs و به عنوان زیر مجموعه‌ای از بخش Crawl تعریف شده است. برای اطمینان از عملکرد صحیح فایل robots.txt به بخش Blocked URLs در اکانت وبمستر خود مراجعه کرده و مانند تصویر زیر در بخش اول محتویات فایل را کپی کنید. در بخش دوم آدرس صفحاتی که قصد دارید میزان محدودیت روبات‌های گوگل در دسترسی به آنها را بسنجید وارد کنید. (در هر خط یک آدرس). در بخش انتهایی شما می‌توانید یک نوع از روبات‌های گوگل را علاوه بر روبات اصلی که وظیفه ایندکس صفحات را برعهده دارد انتخاب کنید.
robot.txt - crawler - فایل روبوت - روبات گوگل

نمایی از صفحه Blocked urls در وبمستر گوگل

با فشردن دکمه Test نتایج آزمون و میزان دسترسی روبات‌ها به هریک از این آدرس‌ها به شما نمایش داده خواهد شد.

robot.txt - crawler - فایل روبوت - روبات گوگل

نمونه‌ای از نتایج آزمایش فایل  Robots.txt

نحوه انتخاب صفحاتی که در فایل robots.txt معرفی می‌شوند و پنهان کردن آنها از دید موتورهای جستجو وابستگی مستقیم با سیاست‌های شما در انتشار محتوا و سئو سایت خواهد داشت. قبل از انجام تغییرات اساسی در این فایل حتما با متخصصان سئو مشورت کرده و کدهای وارد شده را چندین بار آزمون و بازنویسی نمایید.