فایل robots.txt چیست و چه تاثیری بر سئو سایت دارد؟
7 دقیقه
آیا شده در سایت خود صفحه ای ایجاد کرده باشید که نخواهید گوگل آن را ببیند و یا یک صفحه ای ایجاد کرده اید اما در گوگل ایندکس نشده است؟ موتورهای جستجو ربات هایی دارند که تمام اطلاعات سایت را مورد بررسی قرار می دهند و بر اساس استانداردها و الگوریتم هایی که تعریف شده است، به صفحات رتبه و جایگاه اختصاص می دهند. یکی از مباحثی که در مورد کراول صفحات بسیار تأثیرگذار است، یک فایل متنی به نام robots.txt است که در این مقاله بیشتر با دلایل اهمیت آن در سئو، قوانین و استانداردهایی که باید داشته باشد و همچنین نحوه ایجاد آن صحبت خواهیم کرد.
فایل robots.txt چیست؟
یکی از مهم ترین مباحث در سئو تکنیکال، استفاده از فایل robots.txt است. یک فایل متنی است که ربات های گوگل را برای خزش در سایت و کراول کردن صفحات راهنمایی می کند؛ بنابراین خیلی مهم است که بدانید باید چگونه از آن استفاده کنید. به عنوان مثال اگر بخواهید یک صفحه از سایت ایندکس نشود، می توانید از تگ noindex استفاده کنید، اما اگر بخواهید یک دسته از صفحات ایندکس نشوند، باید از این فایل استفاده کنید.
این فایل را خود وب مستران باید برای سایت بسازند و باید طبق استانداردهای خود گوگل باشد. این استاندارد که با نام Robots Exclusion Protocol شناخته می شود تمام قوانین که در فایل robots.txt و لینک های فالو و نوفالو باید در آن رعایت شود ذکر شده است. این فایل به ربات های گوگل می فهماند که چه صفحاتی را کراول کند و چه صفحاتی را کراول نکند.
نحوه ایجاد فایل Robot.txt
حال که در مورد دلایل ماهیت فایل Robot.txt آشنا شده اید، باید بدانید چگونه این فایل را ایجاد کنید. فایل Robot.txt یک فایل متنی ساده است و درست کردن آن خیلی سخت نیست؛ اما باید با انواع دستورهایی که در این فایل قرار می گیرد آشنایی داشته باشید. به طور کلی دو نوع دستور در این فایل قرار می گیرد. دستورهایی که موتور جستجو را برای کراول کردن هدایت می کند و دستورهایی که مانع از کراول کردن ربات ها می شود. برای ایجاد فایل Robot.txt می توانید از دستورات زیر استفاده کنید:
User-agent: *
علامت * باعث می شود که تمام ربات های گوگل فراخوانده شود و برای اینکه ممکن است شما اسم تمام ربات ها را ندانید با گذاشتم علامت "*" تمام ربات های گوگل فراخوانده می شوند. فقط کافی است قبل از دستور User-agent علامت * را قرار دهید.
دستور Disallow
همان طور که واضح است این دستور برای ایندکس نکردن صفحات به کار می رود. با این دستور شما رباهای گوگل را برای کراول کردن و یا خزیدن در صفحات مشخصی منع می کنید. از این دستور باید به شکل زیر استفاده کنید:
user-agent:*
Disallow: /contact/
دستور Allow
این دستور دقیقاً بر خلاف دستور Disallow است و به گوگل می گوید چه صفحاتی را کراول و ایندکس کند. این دستور زمانی اجرا می شود که صفحات شما از نظر فنی و سئویی مشکلی ندارد. استفاده از این دستور به شکل زیر است:
Allow: /media/terms-and-conditions.pdf
Disallow: /media/
دستور Crawl-delay
این دستور به ربات های گوگل دستور می دهد که صفحات را با تأخیر ایندکس کنند و زمانی مورد استفاده قرار می گیرد که سایت شما مشکلی دارد و در حال برطرف کردن آن هستید. درواقع کاربرد این دستور این گونه است که اگر Crawl-delay=100 باشد، یعنی به گوگل می گویید که صفحات را با فاصله ۱۰۰ ثانیه از هم ایندکس کند. استفاده از این دستور به شکل زیر است:
Crawl-delay: 100
دستور Sitemap
یکی از مهم ترین مباحث سئو، نقشه سایت یا Sitemap است. این دستور برای معرفی کردن نقشه سایت به ربات های گوگل است. همان طور که در مقاله Sitemap چیست و چه تأثیری در سئو دارد بیان شد، نقشه سایت یک فایل xml است که شامل اطلاعاتی مربوط به هر url است. نقشه سایت به موتورهای جستجو این اجازه را می دهد که در فهرستی از تمام صفحات وب سایت شما کراول کنند. دستور استفاده از آن به این شکل است:
Sitemap: https://example.com/sitemap.xml
دستور استفاده از عبارت با قاعده
عبارت با قاعده رشته هایی از عملیات هستند که برای تطابق و انجام عملیات مورد استفاده قرار می گیرد. مانند فیلتر کردن محصولات بر اساس رنگ، قیمت و ... که در این صورت از دستور زیر برای ربات های گوگل استفاده می شود:
Disallow:*?
حال که با دستورات آشنا شده اید باید بدانید از آنها به چه ترتیبی استفاده کنید. چرا که رعایت ترتیب بسیار مهم است. ابتدا باید تمام ربات های گوگل را فرا بخوانید پس باید از دستور User-agent: * استفاده کنید. سپس باید دستور محدودیت را ایجاد کنید که باید از دستور Disallow استفاده کنید و سپس دستوری که به ربات ها اجازه خزش می دهد یعنی allow را ایجاد کنید.
به عنوان مثال وقتی از دستور "Disallow: /" استفاده می کنید؛ یعنی ربات های گوگل هیچ صفحه سایت را خزش نکند و یا وقتی از دستور "Allow: /" استفاده می کنید؛ یعنی همه صفحات را خزش کند. همچنین شما می توانید اسم فایل ها، آدرس ها، مسیر و صفحات مشخص را برای خزش یا منع کردن ربات ها از خزش آنها استفاده کنید.
محل قرار گیری فایل robots.txt
سؤالی که برای وب مستران پیش می آید این است که بعد از ایجاد این فایل، آن را کجا باید قرارداد؟ فایل robots.txt در مسیر روت سایت شما قرار می گیرد و برای پیدا کردن دسترسی FTP خود باید به مدیرت پنل خود که یا سی پنل یا دایرکت ادمین است، مراجعه کنید و سپس این فایل را در آدرس public_html قرار دهید. همچنین اگر شما نمی دانید که فایل robots.txt را دارید یا نه فقط کافی است انتهای دامنه خود اسم فایل robots.txt را بگذارید و در صورتی که با صفحه ۴۰۴ مواجه شده اید، یعنی این فایل وجود ندارد و در صورتی که با دستورات بالا مواجه شدید، یعنی این فایل موجود است و از طریق پنل مدیریت می توانید آن را ویرایش کنید.
بعد از اینکه این فایل را در پنل مدیریت خود قرار دادید، نوبت به آن می رسد که دسترسی سرچ کنسول را نیز به او بدهید در این صورت ربات ها گوگل زودتر به صفحات allow و یا disallow خواهند رسید.
موارد استفاده از فایل robots.txt
استفاده از فایل robots.txt یکی از نکات مهم در سئو تکنیکال است هر سئو کاری باید بداند. اما برای اینکه به صورت خلاصه با بعضی از کاربردهای آن آشنا شوید می توان به موارد زیر اشاره کرد:
- اگر محتوای تکراری در سایت خود دارید می توان از طریق فایل txt اجازه ایندکس شدن را ندهید.
- تگ و برچسب هایی که محتوای تکراری ایجاد می کنند.
- فیلتر صفحات مانند قیمت، رنگ، سایز و ... نیز در این فایل باید اضافه شود.
- تمام صفحات پنل سایت
- صفحات پروفایل کاربران سایت
- صفحات چت آنلاین
- قسمتی از سایت خود که باید از موتور جستجو پنهان باشد.
- اعلام مسیر نقشه سایت را با کمک فایل txt به خزنده ها
- محدودکردن فایل قالب هایی از سایت که نیاز به دیده شدن ندارد
تست فایل robots.txt
ممکن است در ایجاد یک فایل robots.txt مشکلی رخ داده باشد که ندانید این مشکل از کجاست. در اینجا باید فایل را تست کنید. روش ساده تست آن این است که آدرس فایل robots.txt را بازکنید و چک کنید؛ اما روش حرفه ای تر آن است که از طریق سرچ کنسول، تست بگیرید. برای این کار وارد سرچ کنسول شوید و روی بخش robots.txt Tester کلیک کنید و test را بزند، اگر مشکلی در فایل وجود نداشته باشد دکمه قرمز Test به دکمه allowed تغییر می کند.
اهمیت فایل robots.txt از نظر سئو
همان طور که گفته شد، خزیدن و کراول صفحات سایت برای سئو و بهینه سازی سایت بسیار اهمیت دارد. اینکه ربات های گوگل به سایت شما زودتر سر بزند و کراول کند می تواند باعث افزایش رتبه شما شود با بهینه سازی فایل robots.txt می توان رفتار ربات ها را کنترل کرد.
کلام آخر
Robots.txt یک فایل متنی است که برای بهبود سئو سایت مورد استفاده قرار می گیرد. این فایل یک عامل ارتقا رتبه نیست و فقط می توان از طریق فایل robots.txt به گوگل دستورداد که چه صفحاتی را ایندکس کند و چه صفحاتی را ایندکس نکند. بعد از راه اندازی سایت، بهتر است این فایل را ایجاد کنید و تا حد امکان از بروز رسانی پشت سرهم خود داری کنید چرا که باعث گیج شدن ربات های گوگل می شود. نحوه ایجاد و دستورهایی که در فایل ROBOTS.TXT باید باشد، تنها بخشی از مطالبی است که در آموزش سئو در مشهد می توانید از آن بهره مند شوید. همچنین شما می توانید برای اطلاع از مطالب مهم دیگر در حوزه سئو، مقالات رایا پارس را مطالعه کنید.