Crawl Errors: خطاهای مربوط به بررسی سایت توسط ربات گوگل
بدون دیدگاه
2,067

هنگامی که ربات گوگل سایتی را بررسی می‌کند ممکن است با خطاهایی مواجه شود و همین خطاها ممکن است مانع نمایش سایت در نتایج جستجو شوند.
در بخش Coverage report از ابزار گوگل وبمستر گزارش‌هایی از فعالیت ربات گوگل هنگام گردش در سایت و خطاهایی که با آن مواجه شده است ارائه می‌گردد مثلا لینک‌های از وب سایت را ارائه می‌دهد که ربات گوگل نتوانسته صفحات مربوطه را بررسی کند و یا با یکی از خطاهای http مانند خطای ۴۰۴ (صفحه موردنظر یافت نشد) مواجه شده است.

گزارش‌ها ارائه‌شده در بخش Crawl Errors

گزارش های ارائه شده در این قسمت از کنسول جستجو شامل ۲ بخش است:

گزارش‌های ارائه‌شده در بخش Site Errors

خطاهای Site errors در گوگل وبمستر

این بخش از گزارش ها، مشکلات و خطاهای اصلی مربوط به کل سایت را در ۹۰ روزه گذشته نمایش می‌دهد. خطاها و موارد مهمی که مانع از دسترسی ربات گوگل به کل محتوای سایت می‌شوند.

چنانچه سایتی به‌درستی و بدون عیب و نقص فعال و در حال کارکردن باشد در گزارش‌های بخش Crawl Errors هیچ آلارم و پیغام خطایی مشاهده نخواهد شد. گوگل جدایی از نوع سایت و بزرگی و کوچکی آن، سعی می‌کند هر تعداد از خطاهای سایت که با آن برخورد می‌کند را از طریق ارسال پیام به مدیریت آن سایت اطلاع‌رسانی کند.

وقتی صفحه Crawl Errors را ملاحظه می‌کنید، در بخش بالایی صفحه که مربوط به خطاهای کلی سایت است (Site errors) برای سه نوع خطای Server connectivity , DNS و robots.txt fetch یک گزارش خلاصه نمایش داده می‌شود. اگر در ۹۰ روز گذشته سایت شما در هر یک از این سه نوع وضعیت عملکردی نسبتاً صحیح و بدون عیب داشته باشد در گزارش‌های کنسول جستجو خود بایستی تصویری مانند شکل زیر را ملاحظه کنید:

گزارش‌های Site Errors در بخش Crawl Errors

اگر در کنار هر یک از این سه وضعیت یک تیک سبز رنگ باشد نشان از صحت عملکرد هر یک و دسترسی ربات گوگل به سایت است و در صورت وجود هر علامت دیگری به‌جز این تیک سبزرنگ، با کلیک بر روی وضعیت مربوطه می‌توان جزئیات بررسی گوگل از سایت را در ۹۰ روز گذشته به‌صورت نموداری مشاهده کرد.

اگر در سایتی در ۹۰ روز گذشته هیچ نوع خطایی توسط ربات گوگل مشاهده نشود و درنتیجه هیچ گزارش خطایی نیز برای نمایش وجود نداشته باشد وضعیتی مانند تصویر زیر را خواهید داشت و این فوق‌العاده است که بتوانید از گوگل این وضعیت و پیغام Nice را دریافت کنید.

بهترین حالت برای گزارش‌های Site Errors در بخش Crawl Errorsاگر برای هر یک از سه وضعیت ذکرشده، درصد خطای ۱۰۰% نشان داده شود، نشان از این است که آن سایت آنلاین نبوده یا تنظیمات آن در برخی موارد به مشکل اساسی برخورد کرده است و پیشنهاد می‌شود سایت را بررسی کنید که سطح دسترسی‌های و مجوزهای لازم برای بخش‌هایی از سایت تغییر نکرده باشد همچنین اگر اسکریپت یا ماژول جدید بر روی سایت خود استفاده کرده‌اید بررسی کنید آیا به‌درستی عمل می‌کنند یا خیر.

درصورتی‌که هیچ مورد خاصی را در سایت خود یافت نکردید، نرخ خطای اعلام‌شده ممکن است فقط یک مورد گذرا و موقتی باشد و شاید هم به خاطر یک سری عوامل خارج از سایت و کنترل شما این موضوع اتفاق افتاده باشد، به‌عنوان‌مثال لینک دهی سایر افراد به صفحاتی از سایت که اصلاً وجود ندارند و این موارد واقعاً مشکلاتی نیستند که نگرانش باشید. درصورتی‌که گوگل تعداد خطای بالایی را در سایت شما مشاهده کند اطلاع‌رسانی‌های لازم را جهت بررسی و رفع موارد مشاهده‌شده انجام خواهد داد.

اگر سایت شما درصد خطای کمتر از ۱۰۰% را برای هریک از این دسته‌بندی‌ها داشته باشد، هم می‌تواند نشان از یک حالت گذرا و موقتی باشد و هم می‌تواند نشانه بارگذاری بیش از اندازه بر روی سرور سایت و یا انجام تنظیمات اشتباه باشد. حتی اگر درصد خطاهای این بخش‌ها روی‌هم‌رفته خیلی کم هم باشد همچنان گوگل ممکن است اطلاع‌رسانی و هشدارهای لازم را بدهد. با این وجود اگر تنظیمات سایت به‌خوبی انجام‌شده باشد معمولاً هیچ خطایی را در هر یک از این سه دسته مشاهده نخواهد شد.

خطاهای URL errors در گوگل وبمستر

این بخش از گزارش‌ها لیست خطاهایی را نشان می‌دهد که گوگل هنگام بررسی برخی از صفحات خاص سایت با آن‌ها مواجه شده است. این خطاها نیز بر اساس مکانیسم‌های مختلفی که ربات گوگل برای بررسی صفحات سایت استفاده می‌کند در دو بخش مجزا ارائه می‌شوند، یک بخش خطاهایی که فقط مربوط به حالت نمایش صفحات در کامپیوترهای شخصی و رومیزی است و دیگری خطاهایی که فقط برای حالت نمایش در گوشی‌های موبایل اتفاق افتاده‌اند.

در صفحه Crawl Errors بخشی از گزارش‌ها تحت عنوان URL Errors ارائه می‌گردد و خطاهایی را نشان می‌دهد که گوگل هنگام بررسی برخی از صفحات خاص سایت با آن‌ها مواجه شده است. این گزارش‌ها در دسته‌بندی‌های مختلفی تقسیم و ارائه می‌شوند و در هر دسته تا ۱۰۰۰ لینک و صفحه‌ای که دارای خطا خاص مربوط به آن دسته‌بندی است گزارش می‌شود. بسیاری از خطاهایی این بخش درجه اهمیت پایینی دارند و نیازی به توجه و بررسی نداشته، اما بااین‌وجود بهتر است این خطاها را بررسی و رفع کنید چراکه ممکن است بر کاربران و یا ربات گوگل تأثیر منفی بگذارد، البته خطاهای مهم‌تر که بیشتر تکرار شده‌اند و بر روی تعداد بیشتری از صفحات سایت اثرگذار بوده‌اند در صدر نمایش داده می‌شود تا بتوانید سریع‌تر آن‌ها را رفع کرد.

در خصوص گزارش‌ها و خطاهای ارائه‌شده در این بخش به نکات زیر توجه کنید:

  1. رفع خطای ۴۰۴ برای لینک‌های مهم سایت توسط دستور ریدایرکت ۳۰۱

لینک‌های مهمی از سایت که به‌اشتباه توسط سایر سایت‌ها لینک شده باشند یا لینک‌های که قبلاً در سایت وجود داشته و در نقشه سایت نیز لینک آن‌ها ذکرشده اما اکنون از سایت حذف‌شده‌اند یا صفحات مهمی که لینک آن‌ها تغییر کرده است یا لینک‌های مهمی از سایت که در آدرس‌دهی به آن‌ها اشتباه تایپی وجود دارد، همگی پس‌ازاینکه توسط گوگل شناسایی شدند، توسط کد وضعیت ۴۰۴ (صفحات موردنظر پیدا نشد) گزارش می‌شوند. با وجود اینکه داشتن خطای ۴۰۴ یک خطای عادی باشد و در کارایی سایت شما در نتایج جستجو هیچ ضرری وارد نمی‌کند اما بااین‌حال به‌سادگی می‌توان با هدایت کردن این لینک‌های یافت نشده به صفحات صحیح و برگرداندن کد وضعیت ۳۰۱ برای ربات گوگل به‌راحتی این لینک‌ها و صفحات را در دسترس بازدیدکنندگان و موتورهای جستجو قرار دهید.

  1. بروز رسانی فایل نقشه سایت

لینک‌های قدیمی و بلااستفاده را از نقشه سایت خود پاک کنید و درصورتی‌که می‌خواهید از یک نقشه سایت جدید به‌جای نقشه سایت قدیمی (فعلی) خود استفاده کنید، حتماً نقشه سایت قبلی را حذف کنید. همچنین نیازی به ریدایرکت نقشه قدیمی سایت به نقشه جدید نیز نمی‌باشد.

  1. ریدایرکت ها را به‌صورت بسیار کوتاه و مختصر انجام دهید

درصورتی‌که در سایت خود لینک هایی دارد که به‌صورت متوالی به لینک‌های دیگری هدایت می‌شوند (مثلاً: pageD < pageC < pageB < pageA) سعی کنید تا جایی که امکان دارد این هدایت کردن‌های متوالی را خلاصه و کوتاه کنید.

مشاهده جزئیات مربوط به لینک‌های دارای خطا

در جدول پایین صفحه از گزارش‌های این بخش، با کلیک بر روی لینک مربوط به هر یک از خطاهای لیست شده می‌توان جزئیات کامل مربوط به آن خطا را مشاهده کرد.

جزئیات مربوط به لینک‌های دارای خطا که در بخش URL Errors گزارش می‌شونددر این پنجره که به‌صورت پاپ آپ باز می‌شود: عنوان خطا، لینک دارای خطا، زمانی که ربات گوگل آن را بررسی کرده است، توضیحات مربوطه و در آخر نیز لینک مستقیم به ابزار Fetch as Google جهت عیب‌یابی آن لینک ارائه می‌گردد. همچنین در یک تب مجزا تحت عنوان “Linked from” برای برخی از لینک‌ها دارای خطا، لیست صفحاتی ارائه می‌شود که در آن‌ها به‌نوعی به این لینک دارای خطا لینک دهی شده است.

پس از مشاهده جزئیات خطا و یا رفع آن می‌توان توسط گزینه “Marks as fixed” چه برای یک لینک خطا به‌صورت تکی یا با انتخاب همه خطاها به‌صورت یکجا، آن (ها) را از لیست گزارش‌های این بخش از گوگل وبمستر پاک کرد. البته اگر خطای مربوطه رفع نشده باشد اگرچه از لیست حذف می‌شود اما در بررسی‌های مجدد گوگل چنانچه دوباره آن خطا مشاهده شود مجدداً در لیست این بخش گزارش خواهد شد.

خطاهای مربوط به انتشار اخبار سایت در گوگل نیوز در بخش crawl errors

یکی دیگر از سرویس‌های گوگل، گوگل نیوز (Google News) است که هدف آن ساماندهی کل اخبار جهان و ارائه آن‌ها به کاربرانی است که به دنبال اخبار جدید و به‌روز می‌باشند آن‌هم به‌صورت دسته‌بندی‌شده و بر اساس علاقه ایشان.

این اخبار در گوگل نیوز از سرتاسر وب و از سایت‌ها معتبر و مختلف جمع‌آوری و ارائه می‌شوند، بدین‌صورت که وب‌سایت‌های مختلف با ثبت سایت خود در گوگل نیوز می‌توانند اخبار سایت خود را جهت انتشار در گوگل نیوز در اختیار گوگل بگذارند.

البته گوگل در خصوص این موضوع بسیار سخت‌گیرانه عمل می‌کند و قوانین و دستورالعمل‌های خاصی را دارد برای اینکه ناشرین اخبار در سایت‌های مختلف بتوانند اخبار منتشرشده در سایت خود را در گوگل نیوز، نیز منتشر کنند.

ناشرین اخبار می‌توانند ابتدا سایت خود را در کنسول جستجو گوگل اضافه و مراحل تائید مالکیت آن را انجام دهند سپس از بخش ” Google News Publisher Center” می‌توانند درخواست اضافه کردن سایت و بخش خبری خود را به گوگل نیوز بدهند، درخواست ثبت‌شده معمولاً ۱ الی ۳ هفته زمان می‌برد که توسط گروه بخش گوگل نیوز بررسی شود و نتیجه آن اعلام شود.

پس از انجام مراحل اولیه و تائید سایت به‌عنوان یکی از منبع‌هایی که اخبارش می‌تواند در گوگل نیوز منتشر شود، گزارش‌ها و خطاهای مربوط به این بخش را می‌توانید در حساب کنسول جستجوی خود بررسی و رفع کنید.

خطاهای بخش news در crawl errors از گوگل وبمستر

خطاهای مربوطه در یک تب جدید به نام “news” در قسمت URL Errors از بخش Crawl errors گزارش می‌شوند.

این خطاها به دسته‌بندی‌های مختلفی تقسیم‌بندی می‌شوند ازجمله “استخراج ناقص مقاله” یا “خطاهای مربوط به‌عنوان” که با کلیک بر روی هریک از این دسته‌بندی‌ها لیست لینک‌ها و خطاهای مربوط به هرکدام را می‌توان مشاهده کرد.

بررسی، تحلیل و فهرست بندی اخبار توسط الگوریتم‌های کامپیوتری گوگل انجام می‌شود و درعین‌حال که تمام تلاش گوگل این است که تمام محتواهای سایت را تا جایی که ممکن است بررسی کند بازهم این تضمین را نمی‌دهد که تک‌تک مطالب را شامل شود.

انواع خطاهای بخش news در گزارشات crawl errors از گوگل وبمستر

Article disproportionately short

بدنه مقاله استخراج‌شده از سایت بسیار کوتاه است.

Article fragmented

مقاله استخراج‌شده به‌صورت تکه‌تکه است؛ یعنی متن مقاله‌ای که گوگل از صفحه HTML استخراج کرده است شامل جملات مجزا از هم می‌باشد که در یک پاراگراف در یک گروه قرار نمی‌گیرند.

توصیه‌ای که برای این نوع خطا می‌شود این است که کنترل کنید پاراگراف‌های شما بیشتر از یک جمله باشد. همچنین اطمینان حاصل کنید که جملات خود را به‌خوبی نشانه‌گذاری کرده‌اید و اطمینان حاصل کنید که از برچسب‌های <BR> و <P> به‌طور مکرر در پاراگراف‌ها استفاده نکرده‌اید و به‌طورکلی از تجزیه متن مقاله خودداری کنید.

Article too long

مقاله‌ای که گوگل از صفحه استخراج کرده است بیش‌ازحد طولانی است. یکی از علل شایع می‌تواند تعداد نظرات زیاد کاربران در زیر مقاله باشد. توصیه می‌شود برخی از متون غیر مقاله‌ای را از صفحه مقاله حذف کنید و اگر صفحه مقاله شامل نظرات کاربران باشد، یا آن‌ها را در یک چهارچوب (Iframe) مجزا قرار دهید یا آن‌ها را به‌صورت پویا توسط AJAX در صفحه مربوطه فراخوانی کنید.

Article too short

متن مقاله‌ای که گوگل از صفحه HTML مربوطه استخراج کرده است شامل کلمات اندکی برای یک مقاله خبری باشد. این خطا مربوط به مواردی است که از خلاصه اخبار به‌جای مقالات خبری کامل استفاده شده باشد یا محتوای خبری به‌صورت مولتی‌مدیا بوده است.

توصیه می‌شود سعی کنید در پاراگراف‌های مقاله خود از چند جمله استفاده کنید و اطمینان حاصل کنید که مقاله شما محتوی بیشتر از ۸۰ کلمه باشد. گوگل مقالات خبری که شامل لغات اندکی باشند را در نظر نمی‌گیرد.

Date not found

گوگل قادر به تعیین تاریخ انتشار مقاله نبوده است. برای رفع یا عدم برخورد با چنین خطایی توصیه می‌شود تاریخ و زمان مشخصی را برای هر یک از مقالات خود، در یک خط جداگانه از HTML، بین عنوان مقاله و متن اصلی مشخص کنید همچنین در اولین انتشار مقاله تاریخ باید مشخص باشد. هر تاریخ دیگری را نیز از HTML صفحه حذف کنید تا ربات گوگل آن‌ها را با زمان انتشار صحیح اشتباه نگیرد.

اگر می‌خواهید از متاتگ تاریخ استفاده کنید باید به‌صورت زیر باشد:

<meta name="DC.date.issued" content="YYYY-MM-DD">

که در اینجا تاریخ به‌صورت فرمت W3C  (https://www.w3.org/TR/NOTE-datetime) می‌باشد.

تاریخ را به‌صورت کامل (YYYY-MM-DD) است یا به صورت تاریخ کامل به اضافه ساعت و دقیقه و ثانیه (YYYY-MM-DDThh:mm:ssTZD) استفاده کنید.

همچنین زمانی که سایت خود را به بخش گوگل نیوز معرفی می‌کنید می‌توانید یک نقشه سایت خبری نیز برای سایت خود استفاده کنید. به‌کارگیری تگ <publication_date> در این نقشه خبری تضمین می‌کند که شما تاریخ صحیح برای مقالات خود را داده‌اید.

Date too old

این خطا نشان از این است که تاریخ تعیین‌شده برای این مقاله چه توسط تگ <publication_date> در نقشه خبری سایت ایجادشده باشد و چه توسط یک تاریخ در خود صفحه HTML، درهرصورت تاریخ مقاله خیلی قدیمی است.

توجه کنید که گوگل در حال حاضر فقط مقالاتی که تاریخ نشر آن‌ها کمتر از دو روز است را جمع‌آوری و در گوگل نیوز منتشر می‌کند، بنابراین اطمینان حاصل کنید که تاریخ مقاله شما در کمتر از ۲ روز باشد، همچنین بهتر است مراحل ایجاد تاریخ که در خطای قبلی اشاره شد را نیز به‌دقت یک‌بار دیگر در سایت و مقالات خود بررسی کنید.

Empty article

متن مقاله‌ای که گوگل از صفحه HTML استخراج کرده است به نظر می‌رسد خالی باشد.

توصیه می‌شود مطمئن شوید که متن کامل مقالات مستقیماً در کد منبع از صفحات مقاله در دسترس است، به‌عنوان‌مثال در یک فایل جاوا اسکریپت جاسازی نشده باشد.

همچنین اطمینان حاصل کنید که از استایل هایی مانند “”display:none یا visibility:hidden”” در کد منبع مقالات خود استفاده نکرده باشید.

Extraction failed

این نوع خطا که اصطلاحاً استخراج ناقص نامیده می‌شود زمانی رخ می‌دهد که گوگل قادر به شناسایی یک عنوان معتبر، متن خبر و برچسب زمان برای این مقاله نباشد. گوگل لیست آدرس‌های از سایت را با این خطا مشخص می‌کند تا شما بدانید که چرا بعضی مقالات در گوگل نیوز ظاهر نمی‌شوند.

اطمینان حاصل کنید که عنوان، متن و برچسب زمان به‌راحتی برای ربات گوگل قابل‌بررسی باشند (به‌عنوان‌مثال موارد ذکرشده به‌صورت متنی باشند نه به‌صورت تصاویر)، در حال حاضر گزارش این خطا در درجه اول صرفاً به‌قصد اطلاع‌رسانی است و تمام تلاش گوگل این است که روش استخراج اخبار را بهبود ببخشد تا در آینده این خطا را کمتر ببینید.

Off-site redirect

این خطا بدین معناست که صفحه یا بخشی از مقاله به لینکی در یک دامنه متفاوت هدایت می‌شود.

دقت کنید که همه صفحات مقالات باید در دامنه همان سایتی که برای گوگل نیوز تنظیم شده است قرار گیرند. اگر در مقالات خود از لینک با سایر سایت‌ها اصلاً استفاده نکنید حتماً سایت خود را بررسی کنید که هک نشده باشد و لینک‌ها توسط شخص ثالث دیگری در سایت تغییر کرده باشند.

Page too large

حجم صفحه منبع HTML نباید بیش از ۲۵۶ کیلوبایت باشد و اگر حجم صفحه مربوطه از حداکثر مجاز بیشتر باشد این خطا نمایش داده می‌شود.

Title not allowed

عنوانی که گوگل از منبع HTML صفحه استخراج می‌کند یک عنوان مجاز برای یک مطلب خبری نیست.

اغلب برای رفع این مشکل می‌توان عنوان مطلب را در کد HTML صفحه در برچسب <TITLE> قرار داد، همچنین عنوان مطلب خبری را در داخل متن صفحه توسط برچسب <h1> مجدد تکرار کنید.

Title not found

گوگل نتوانسته عنوان مطلب خبری را از صفحه HTML استخراج کند. پیشنهاد می‌شود که عنوان مطلب را در بالای صفحه و در برچسب <h1> قرار دهید همچنین استفاده از برچسب <title> برای عنوان سایت. سعی کنید از تاریخ و زمان در عنوان خود استفاده نکنید. همچنین عنوانی که انتخاب می‌کند حداقل ۱۰ کاراکتر باشد و بین حداقل ۲ تا حداکثر ۲۲ کلمه باشد.

Uncompression failed

ربات خبری مخصوص بخش گوگل نیوز (Googlebot-News) صفحه خبر را به‌صورت فشرده‌شده شناسایی کرده و نتوانسته آن را از حالت فشرده خارج و بررسی کند و درنتیجه این خطا را برای صفحه مربوطه گزارش کرده است.

این خطا می‌تواند به خاطر قطعی یا وضعیت نامطلوب وب سرور و یا شبکه نیز اتفاق افتاده باشد.

Unsupported content type

این خطا اصطلاحاً محتوا پشتیبانی نشده نامیده می‌شود و زمانی رخ می‌دهد که نوع محتوای صفحه HTML توسط گوگل نیوز قابل پشتیبانی نباشد. مقالات باید دارای محتوا از نوع text/html، text/plain یا application/xhtml+xml باشند

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

این فیلد را پر کنید
این فیلد را پر کنید
لطفاً یک نشانی ایمیل معتبر بنویسید.