10 دقیقه
اگر همین حالا در دسترسی به شبکه حرفهای خود مشکل دارید، تنها نیستید. لینکدین، بزرگترین پلتفرم شبکهسازی حرفهای در جهان، در حال حاضر دچار یک اختلال قابل توجه سرویس شده که کاربران در سرتاسر جهان را تحت تأثیر قرار میدهد. این اختلال میتواند دسترسی به پروفایلها، پیامها، اعلانهای شغلی و ابزارهای منابع انسانی را مختل کند و برای کسبوکارها، متخصصان منابع انسانی و متقاضیان کار پیامدهای جدی در روند استخدام و ارتباطات حرفهای ایجاد نماید. در این گزارش سعی شده است ضمن گزارش لحظهای وضعیت، نکات فنی، روشهای ابتدایی عیبیابی برای کاربران و تحلیل پیامدهای احتمالی ارائه شود تا خوانندگان تصویر کاملتری از وضعیت فعلی و راهکارهای موقت داشته باشند.
در ۳۰ دقیقه گذشته گزارشها بهسرعت افزایش یافتهاند و نشان میدهند که هم نسخهٔ وب دسکتاپ و هم اپلیکیشن موبایل لینکدین برای طیف گستردهای از کاربران در دسترس نیستند. کاربران در شبکههای اجتماعی و سامانههای ردیابی وضعیت سرویس (مثل گزارشهای مردمی و ابزارهای نظارت آنلاین) اعلام کردهاند که صفحات بارگذاری نمیشوند یا با خطای سفید مواجه میشوند. این نوع اختلالات معمولاً همزمان بر تجربه کاربری اثر میگذارند و در فعالیتهای تجاری و استخدامی تأخیر به وجود میآورند؛ بنابراین بررسی سریع علت و بازگرداندن سرویس برای سازمانها و کاربران فردی اهمیت بالایی دارد.
خطای «500 Internal Server Error» کاربرانی که سعی در بازدید از LinkedIn.com دارند، در حال حاضر با صفحهٔ سفید و پیام «500 Internal Server Error» مواجه میشوند. این پیام نشان میدهد که خطا در سطح سرور رخ داده و پردازش درخواست از سمت سرور با مشکل روبرو شده است. برای بسیاری از کاربران، نمایش چنین خطایی به معنی آن است که مشکل از اتصال اینترنت خودشان نیست و باید منتظر رفع اشکال از طرف ارائهدهنده سرویس باشیم. در ادامه به توضیح فنیتر و احتمالات مربوط به منشأ خطا پرداخته میشود تا خوانندگان غیرتخصصی نیز درک بهتری از وضعیت داشته باشند.
طبق اسکرینشاتهایی که کاربران به اشتراک گذاشتهاند و توسط Smarti تأیید شده، پیام خطا همراه با فوتر برند Cloudflare نمایش داده میشود. این کد خطا معمولاً نشاندهندهٔ مشکل در سرور وب سایت یا مشکلی در مسیر ارتباطی با ارائهدهندهٔ بالادستی است و حضور نشان Cloudflare تایید میکند که احتمالاً بخشی از جریان ترافیک بین شبکهٔ توزیع محتوا (CDN) و سرورهای اصلی (origin servers) دچار اختلال شده است. در بسیاری از موارد، خطاهای 500 میتوانند ناشی از موارد زیر باشند: پیکربندی نادرست سرور، خطای نرمافزاری در بکاند، اشکال در ارتباط میان CDN و سرور اصلی، مشکلات مرتبط با پایگاه داده، یا حتی نقص در بهروزرسانیهای اخیر نرمافزار. تشخیص دقیق نیازمند بررسی لاگهای سرور، متریکهای شبکه و گزارشهای CDN است.
آنچه تاکنون میدانیم:
دامنه: به نظر میرسد این اختلال سراسری باشد و گزارشها از ایالات متحده، اروپا و آسیا ارسال شدهاند. گستردگی جغرافیایی گزارشها احتمال وقوع یک مشکل زیرساختی بزرگ—و نه یک مشکل محلی یا محدود به ISP—را افزایش میدهد. برای سازمانها و تیمهای فناوری اطلاعات (IT)، دانستن دامنهٔ مشکل اهمیت دارد چون نشان میدهدچه میزانی از تدارکات جایگزین یا اطلاعرسانی داخلی لازم است.
ماهیت مشکل: خطای «500 Internal Server Error» نشاندهندهٔ شکست در پردازش سمت سرور است. آرم Cloudflare که در صفحهٔ خطا دیده میشود، احتمال وجود مشکل در شبکهٔ توزیع محتوا (CDN) یا در مرحلهٔ انتقال درخواستها از لبههای Cloudflare به سرورهای منشا لینکدین را مطرح میکند. بهطور فنی این میتواند شامل خرابی یکی از لایههای میانی، مشکلات DNS، اشکال در احراز هویت میان CDN و origin، یا حتی بار غیرمنتظره روی یک بخش از زیرساخت باشد. مهندسان باید لاگهای لبه (edge logs)، لاگهای origin، و متریکهای مربوط به سلامت سرویس را بررسی کنند تا علّت دقیق مشخص شود.
وضعیت اطلاعرسانی: تا این لحظه، مایکروسافت (شرکت مادر لینکدین) هیچ بیانیهٔ رسمی دربارهٔ علت قطعی یا زمان تقریبی رفع مشکل منتشر نکرده است. در زمانهای اختلال، معمولاً شرکتها از کانالهای رسمی مانند صفحهٔ وضعیت سرویس، حسابهای توییتر رسمی، یا بخش پشتیبانی برای اطلاعرسانی استفاده میکنند؛ نبود اطلاعرسانی رسمی میتواند منجر به شایعات و گزارشهای نادرست شود، بنابراین انتظار میرود که تیم ارتباطات لینکدین بهزودی اطلاعات تکمیلی منتشر کند.
این یک گزارش در حال توسعه است. ما این مقاله را بهمحض بازگشت خدمات یا انتشار یک بیانیهٔ رسمی بهروز خواهیم کرد. همچنین خوانندگان میتوانند برای پیگیری وضعیت، صفحات رسمی وضعیت سرویس و حسابهای اجتماعی مایکروسافت و لینکدین را بررسی کنند. برای تیمهای فناوری در شرکتها، توصیه میشود برنامهٔ اضطراری برای ارتباطات استخدامی و انجام امور حیاتی که به لینکدین وابستهاند را فعال کنند و در صورت نیاز از کانالهای جایگزین مانند ایمیل یا شبکههای اجتماعی دیگر استفاده نمایند.
آیا شما نیز خطای 500 را مشاهده میکنید یا اپلیکیشن برای شما فقط بارگذاری نمیشود؟ لطفاً تجربهٔ خود را در بخش نظرات با ما در میان بگذارید.
راهنماییهای اولیه برای کاربران و تیمهای فنی
در حالی که تیم فنی لینکدین در حال بررسی و رفع مشکل است، برخی اقدامات اولیه میتواند به کاربران کمک کند تا مطمئن شوند مشکل از سمت خودشان نیست یا دستکم راهکارهای موقتی را امتحان کنند:
بررسی وضعیت سرویس: از صفحات وضعیت رسمی یا حسابهای رسانهای لینکدین و مایکروسافت اطلاعیهها را دنبال کنید. ابزارهای عمومی ردیابی اختلال نیز میتوانند دید کلی از دامنهٔ مشکل ارائه دهند.
پاکسازی کش و کوکیها: در برخی مواقع اختلالات موقت ناشی از کش مرورگر هستند؛ پاکسازی کش و بارگذاری مجدد میتواند در موارد محدود مؤثر باشد، اگرچه در خطای 500 که نشاندهندهٔ مشکل سروری است، احتمالاً این اقدام تأثیر زیادی نخواهد داشت.
آزمایش با دستگاهها و شبکههای مختلف: تلاش برای دسترسی از طریق یک شبکهٔ متفاوت یا دستگاه دیگر (مثلاً موبایل بهجای دسکتاپ یا بالعکس) میتواند روشن کند که آیا مشکل عمومی است یا به یک ترکیب مشخص از دستگاه/شبکه مربوط میشود.
پیگیری لاگها و ابزارهای مانیتورینگ (برای تیمهای فنی): تیمهای عملیاتی باید لاگهای خروجی، درخواستهای مسدودشده توسط CDN، و متریکهای مربوط به تاخیر و خطاها را بررسی کنند تا ناهنجاریها شناسایی شوند. اتصال میان Cloudflare و origin باید از منظر TLS/SSL، پیکربندی headerها و محدودیتهای نرخ (rate limiting) بررسی گردد.
ممکن است این اختلال چه پیامدهایی داشته باشد؟
یک اختلال گسترده در لینکدین میتواند تأثیرات زیر را داشته باشد: اختلال در فرایندهای جذب نیرو (مصاحبهها و ارسال درخواستها)، مختل شدن کمپینهای بازاریابی کاری، کاهش قابلیت دسترسی به شبکهٔ حرفهای در زمانهایی که ارتباطات فوری مورد نیاز است، و بار اضافی بر تیمهای پشتیبانی شرکتها که باید از کانالهای دیگر پاسخگوی متقاضیان و مشتریان باشند. برای مدیران منابع انسانی و تیمهای بازاریابی، داشتن برنامهٔ جایگزین ارتباطی (مثل ایمیل، سیستمهای ATS مستقل، یا استفاده از سایر شبکههای اجتماعی) حیاتی است.
نکات فنی برای کارشناسان زیرساخت
برای مهندسان و مدیران زیرساخت، چندین محور فنی وجود دارد که باید بررسی شوند: لاگهای CDN برای دیدن اینکه آیا درخواستها بهدرستی به لبه ارسال میشوند، لاگهای origin برای خطاهای داخلی اپلیکیشن، وضعیت پایگاه دادهها و کشها، و بررسی پیکربندی DNS و TLS. اگر Cloudflare در مسیر قرار دارد، لازم است تا مواردی مانند محدودیتهای نرخ، firewall rules، و تغییرات اخیر در تنظیمات پروکسی یا قوانین WAF ارزیابی شود. همچنین، سناریوهای failover و توزیع بار باید بازبینی شوند تا مطمئن شوند که نقطهٔ واحد شکست (single point of failure) وجود ندارد یا حداقل اثر آن کاهش یابد.
سابقهٔ اختلالات مشابه و درسهایی برای آینده
سابقه نشان داده است که اختلالات بزرگ در سرویسهای ابری و پلتفرمهای بزرگ معمولاً ناشی از ترکیبی از عوامل است: بهروزرسانیهای نرمافزاری بدون تست کافی، پیکربندیهای ناسازگار میان لایههای مختلف، مشکلات ارتباطی بین خدمات میکروسرویسی، یا حملات گسترده. درسهای متداول عبارتاند از: داشتن برنامهٔ بازگشت سریع (rollback) برای انتشارها، تست بارگذاری در مقیاس بزرگ، مانیتورینگ بلادرنگ برای تشخیص سریع نُرمشکنیها، و آمادهسازی مسیرهای ارتباطی جایگزین برای کاربران حیاتی.
چشمانداز پاسخ و مسئولیتپذیری
از آنجا که لینکدین زیرمجموعهٔ مایکروسافت است، انتظار میرود که تیمهای مهندسی و ارتباطات مایکروسافت بهسرعت همسو با تیمهای لینکدین برای رفع مشکل اقدام کنند و پس از حل اختلال، گزارشی از علت ریشهای و اقدامات اصلاحی منتشر نمایند. شفافیت در اطلاعرسانی و ارائهٔ زمانبندی برای بازگشت سرویس از نکات مهم در مدیریت بحران فناوری اطلاعات است تا اعتماد کاربران و کسبوکارها حفظ شود.
جمعبندی موقت
درواقع در شرایط کنونی کاربران باید انتظار داشته باشند که دسترسی به لینکدین ممکن است با اختلال مواجه باشد و برای امور حیاتی از کانالهای جایگزین استفاده کنند. تیمهای فنی باید بهسرعت لاگها و متریکها را بررسی کنند، ارتباط با ارائهدهندگان CDN را برقرار نمایند و برنامههای اضطراری را فعال کنند. ما گزارش را دنبال کرده و بهمحض دریافت اطلاعات رسمی یا بازگشت سرویس، این صفحه را بهروز خواهیم کرد تا جزئیات فنی و عملیاتی دقیقتری ارائه شود.
تجربهٔ خود را با ما در میان بگذارید: اگر هماکنون خطای 500 را میبینید یا اپ لینکدین برای شما بارگذاری نمیشود، لطفاً نوع دستگاه، منطقهٔ جغرافیایی و هر پیامی که نمایش داده میشود را در بخش نظرات وارد کنید تا بتوانیم تصویری بهتر از دامنهٔ اختلال ارائه دهیم.
منبع: smarti
نظرات
بیونیکس
گزارش فنی خوبه ولی برای عموم زیادی پیچیدهست، یه خلاصه ساده هم بذارید لطفا. بعضی توضیحات هم تکراریه
توربوام
به عنوان کسی که تو IT کار میکنه، این سناریو رو قبلا دیدم: آپدیت بدون rollback، panic mode، کلی تماس از منابع انسانی؛ باید لاگ ها و CDN رو سریع چک کنن
کوینپ
این گزارش واقعیِ یا شایعه؟ اگه Cloudflare مشکل داشته باشه پس چرا مایکروسافت چیزی نمیگه…
رودکس
وای حاضرم شرط ببندم الان کلی رزومه وسط راه مونده! من هم ۵۰۰ دیدم، صفحه سفید و هیچی؛ امیدوارم زود درست بشه
ارسال نظر