خطاهای مربوط به انتشار اخبار سایت در گوگل نیوز در بخش crawl errors

23

یکی دیگر از سرویس‌های گوگل، گوگل نیوز (Google News) است که هدف آن ساماندهی کل اخبار جهان و ارائه آن‌ها به کاربرانی است که به دنبال اخبار جدید و به‌روز می‌باشند آن‌هم به‌صورت دسته‌بندی‌شده و بر اساس علاقه ایشان.

این اخبار در گوگل نیوز از سرتاسر وب و از سایت‌ها معتبر و مختلف جمع‌آوری و ارائه می‌شوند، بدین‌صورت که وب‌سایت‌های مختلف با ثبت سایت خود در گوگل نیوز می‌توانند اخبار سایت خود را جهت انتشار در گوگل نیوز در اختیار گوگل بگذارند.

البته گوگل در خصوص این موضوع بسیار سخت‌گیرانه عمل می‌کند و قوانین و دستورالعمل‌های خاصی را دارد برای اینکه ناشرین اخبار در سایت‌های مختلف بتوانند اخبار منتشرشده در سایت خود را در گوگل نیوز، نیز منتشر کنند.

ناشرین اخبار می‌توانند ابتدا سایت خود را در کنسول جستجو گوگل اضافه و مراحل تائید مالکیت آن را انجام دهند سپس از بخش ” Google News Publisher Center” می‌توانند درخواست اضافه کردن سایت و بخش خبری خود را به گوگل نیوز بدهند، درخواست ثبت‌شده معمولاً ۱ الی ۳ هفته زمان می‌برد که توسط گروه بخش گوگل نیوز بررسی شود و نتیجه آن اعلام شود.

پس از انجام مراحل اولیه و تائید سایت به‌عنوان یکی از منبع‌هایی که اخبارش می‌تواند در گوگل نیوز منتشر شود، گزارش‌ها و خطاهای مربوط به این بخش را می‌توانید در حساب کنسول جستجوی خود بررسی و رفع کنید.

خطاهای بخش news در crawl errors از گوگل وبمستر

خطاهای مربوطه در یک تب جدید به نام “news” در قسمت URL Errors از بخش Crawl errors گزارش می‌شوند.

این خطاها به دسته‌بندی‌های مختلفی تقسیم‌بندی می‌شوند ازجمله “استخراج ناقص مقاله” یا “خطاهای مربوط به‌عنوان” که با کلیک بر روی هریک از این دسته‌بندی‌ها لیست لینک‌ها و خطاهای مربوط به هرکدام را می‌توان مشاهده کرد.

بررسی، تحلیل و فهرست بندی اخبار توسط الگوریتم‌های کامپیوتری گوگل انجام می‌شود و درعین‌حال که تمام تلاش گوگل این است که تمام محتواهای سایت را تا جایی که ممکن است بررسی کند بازهم این تضمین را نمی‌دهد که تک‌تک مطالب را شامل شود.

انواع خطاهای بخش news در گزارشات crawl errors از گوگل وبمستر

Article disproportionately short

بدنه مقاله استخراج‌شده از سایت بسیار کوتاه است.

Article fragmented

مقاله استخراج‌شده به‌صورت تکه‌تکه است؛ یعنی متن مقاله‌ای که گوگل از صفحه HTML استخراج کرده است شامل جملات مجزا از هم می‌باشد که در یک پاراگراف در یک گروه قرار نمی‌گیرند.

توصیه‌ای که برای این نوع خطا می‌شود این است که کنترل کنید پاراگراف‌های شما بیشتر از یک جمله باشد. همچنین اطمینان حاصل کنید که جملات خود را به‌خوبی نشانه‌گذاری کرده‌اید و اطمینان حاصل کنید که از برچسب‌های <BR> و <P> به‌طور مکرر در پاراگراف‌ها استفاده نکرده‌اید و به‌طورکلی از تجزیه متن مقاله خودداری کنید.

Article too long

مقاله‌ای که گوگل از صفحه استخراج کرده است بیش‌ازحد طولانی است. یکی از علل شایع می‌تواند تعداد نظرات زیاد کاربران در زیر مقاله باشد. توصیه می‌شود برخی از متون غیر مقاله‌ای را از صفحه مقاله حذف کنید و اگر صفحه مقاله شامل نظرات کاربران باشد، یا آن‌ها را در یک چهارچوب (Iframe) مجزا قرار دهید یا آن‌ها را به‌صورت پویا توسط AJAX در صفحه مربوطه فراخوانی کنید.

Article too short

متن مقاله‌ای که گوگل از صفحه HTML مربوطه استخراج کرده است شامل کلمات اندکی برای یک مقاله خبری باشد. این خطا مربوط به مواردی است که از خلاصه اخبار به‌جای مقالات خبری کامل استفاده شده باشد یا محتوای خبری به‌صورت مولتی‌مدیا بوده است.

توصیه می‌شود سعی کنید در پاراگراف‌های مقاله خود از چند جمله استفاده کنید و اطمینان حاصل کنید که مقاله شما محتوی بیشتر از ۸۰ کلمه باشد. گوگل مقالات خبری که شامل لغات اندکی باشند را در نظر نمی‌گیرد.

Date not found

گوگل قادر به تعیین تاریخ انتشار مقاله نبوده است. برای رفع یا عدم برخورد با چنین خطایی توصیه می‌شود تاریخ و زمان مشخصی را برای هر یک از مقالات خود، در یک خط جداگانه از HTML، بین عنوان مقاله و متن اصلی مشخص کنید همچنین در اولین انتشار مقاله تاریخ باید مشخص باشد. هر تاریخ دیگری را نیز از HTML صفحه حذف کنید تا ربات گوگل آن‌ها را با زمان انتشار صحیح اشتباه نگیرد.

اگر می‌خواهید از متاتگ تاریخ استفاده کنید باید به‌صورت زیر باشد:

<meta name="DC.date.issued" content="YYYY-MM-DD">

که در اینجا تاریخ به‌صورت فرمت W3C  (https://www.w3.org/TR/NOTE-datetime) می‌باشد.

تاریخ را به‌صورت کامل (YYYY-MM-DD) است یا به صورت تاریخ کامل به اضافه ساعت و دقیقه و ثانیه (YYYY-MM-DDThh:mm:ssTZD) استفاده کنید.

همچنین زمانی که سایت خود را به بخش گوگل نیوز معرفی می‌کنید می‌توانید یک نقشه سایت خبری نیز برای سایت خود استفاده کنید. به‌کارگیری تگ <publication_date> در این نقشه خبری تضمین می‌کند که شما تاریخ صحیح برای مقالات خود را داده‌اید.

Date too old

این خطا نشان از این است که تاریخ تعیین‌شده برای این مقاله چه توسط تگ <publication_date> در نقشه خبری سایت ایجادشده باشد و چه توسط یک تاریخ در خود صفحه HTML، درهرصورت تاریخ مقاله خیلی قدیمی است.

توجه کنید که گوگل در حال حاضر فقط مقالاتی که تاریخ نشر آن‌ها کمتر از دو روز است را جمع‌آوری و در گوگل نیوز منتشر می‌کند، بنابراین اطمینان حاصل کنید که تاریخ مقاله شما در کمتر از ۲ روز باشد، همچنین بهتر است مراحل ایجاد تاریخ که در خطای قبلی اشاره شد را نیز به‌دقت یک‌بار دیگر در سایت و مقالات خود بررسی کنید.

Empty article

متن مقاله‌ای که گوگل از صفحه HTML استخراج کرده است به نظر می‌رسد خالی باشد.

توصیه می‌شود مطمئن شوید که متن کامل مقالات مستقیماً در کد منبع از صفحات مقاله در دسترس است، به‌عنوان‌مثال در یک فایل جاوا اسکریپت جاسازی نشده باشد.

همچنین اطمینان حاصل کنید که از استایل هایی مانند “”display:none یا visibility:hidden”” در کد منبع مقالات خود استفاده نکرده باشید.

Extraction failed

این نوع خطا که اصطلاحاً استخراج ناقص نامیده می‌شود زمانی رخ می‌دهد که گوگل قادر به شناسایی یک عنوان معتبر، متن خبر و برچسب زمان برای این مقاله نباشد. گوگل لیست آدرس‌های از سایت را با این خطا مشخص می‌کند تا شما بدانید که چرا بعضی مقالات در گوگل نیوز ظاهر نمی‌شوند.

اطمینان حاصل کنید که عنوان، متن و برچسب زمان به‌راحتی برای ربات گوگل قابل‌بررسی باشند (به‌عنوان‌مثال موارد ذکرشده به‌صورت متنی باشند نه به‌صورت تصاویر)، در حال حاضر گزارش این خطا در درجه اول صرفاً به‌قصد اطلاع‌رسانی است و تمام تلاش گوگل این است که روش استخراج اخبار را بهبود ببخشد تا در آینده این خطا را کمتر ببینید.

Off-site redirect

این خطا بدین معناست که صفحه یا بخشی از مقاله به لینکی در یک دامنه متفاوت هدایت می‌شود.

دقت کنید که همه صفحات مقالات باید در دامنه همان سایتی که برای گوگل نیوز تنظیم شده است قرار گیرند. اگر در مقالات خود از لینک با سایر سایت‌ها اصلاً استفاده نکنید حتماً سایت خود را بررسی کنید که هک نشده باشد و لینک‌ها توسط شخص ثالث دیگری در سایت تغییر کرده باشند.

Page too large

حجم صفحه منبع HTML نباید بیش از ۲۵۶ کیلوبایت باشد و اگر حجم صفحه مربوطه از حداکثر مجاز بیشتر باشد این خطا نمایش داده می‌شود.

Title not allowed

عنوانی که گوگل از منبع HTML صفحه استخراج می‌کند یک عنوان مجاز برای یک مطلب خبری نیست.

اغلب برای رفع این مشکل می‌توان عنوان مطلب را در کد HTML صفحه در برچسب <TITLE> قرار داد، همچنین عنوان مطلب خبری را در داخل متن صفحه توسط برچسب <h1> مجدد تکرار کنید.

Title not found

گوگل نتوانسته عنوان مطلب خبری را از صفحه HTML استخراج کند. پیشنهاد می‌شود که عنوان مطلب را در بالای صفحه و در برچسب <h1> قرار دهید همچنین استفاده از برچسب <title> برای عنوان سایت. سعی کنید از تاریخ و زمان در عنوان خود استفاده نکنید. همچنین عنوانی که انتخاب می‌کند حداقل ۱۰ کاراکتر باشد و بین حداقل ۲ تا حداکثر ۲۲ کلمه باشد.

Uncompression failed

ربات خبری مخصوص بخش گوگل نیوز (Googlebot-News) صفحه خبر را به‌صورت فشرده‌شده شناسایی کرده و نتوانسته آن را از حالت فشرده خارج و بررسی کند و درنتیجه این خطا را برای صفحه مربوطه گزارش کرده است.

این خطا می‌تواند به خاطر قطعی یا وضعیت نامطلوب وب سرور و یا شبکه نیز اتفاق افتاده باشد.

Unsupported content type

این خطا اصطلاحاً محتوا پشتیبانی نشده نامیده می‌شود و زمانی رخ می‌دهد که نوع محتوای صفحه HTML توسط گوگل نیوز قابل پشتیبانی نباشد. مقالات باید دارای محتوا از نوع text/html، text/plain یا application/xhtml+xml باشند.

[۴]

 

ارسال یک پاسخ

آدرس ایمیل شما منتشر نخواهد شد.