البيانات المختفية Hidden Data أو البيانات المظلمة Dark Data ؛ هي البيانات التي قد لا تعرف المنظمة بأنها تمتلكها، وهي جزء من عالم ضخم، ومعقد، ومترامي الأطراف من البيانات الضخمة Big Data – و تشكل الجزء الأكبر منها.
تأمل في جميع البيانات التي تقوم المنظمات بجمعها ومعالجتها لغرض معين، فإن كانت تقوم بتحليل هذه البيانات بشكل فعال، فمن المحتمل حينئذ أن تعرفها، ولكن هناك البيانات التي تقوم المنظمات بجمعها وتخزينها ولا يجري استخدامها أو معالجتها أو تحليلها؛ أي البيانات التي تبقى مختفية في الظل وتختبئ تحت السطح، فضلا عن كونها تسهم في جمع المخاطر وتخفي وراءها الكثير من الفرص التجارية الضائعة. وبعبارة أخرى، بيانات تمتلكها المنظمات وهي غير منظمة وغير مستغلة وغير محمية وغير معروفة، ولا تعلم عنها شيئاً؛ وهذه تُعرف بالبيانات المظلمة. وهناك الكثير منها – وربما تشكل أكثر من نصف إجمالي البيانات التي تمتلكها المنظمة.
التحديات التي تنطوي عليها
البيانات المظلمة غالبًا تأتي مع البيانات التي تجمع من أجل أغراض محددة – وبالتالي تحتوي على معلومات حساسة أو شخصية أو مرتبة أو ضعيفة أو عالية الخطورة، ويجب إبعادها عن الأيدي الخطأ، ولعل بقاء هذه البيانات قابعة في أضابير المنظمة دون أن يتم إخضاعها للتحليل، قد يتسبب في خلق مشكلات جادة وسلبية ، كما يمكن أن تتسبب في تحميل المنظمة تكاليف باهظة. حيث تزيد البيانات المظلمة من مخاطر الأمان بمجرد وجودها في النظام دون أن يلاحظ أحد وجودها، وأحياناً لفترة طويلة جدًا، ودون أن تقوم المنظمة بتوفير الحماية المناسبة لها، ولأنها بيانات غير معروفة، فإنها لا تمر أيضًا عبر العمليات التنظيمية اللازمة التي تضعها المنظمة عادةً للامتثال، ونظرًا لتجاهل فإن المخترقين الخبثاء malicious attackers يعتبرونها فريسة سهلة.
هذه البيانات عادة تحوي معلومات قيمة يمكن الاستفادة منها في اتخاذ القرارات السليمة إذا علمت فقط بوجودها وما تحتويه وكيفية تحديد موقعها والاستفادة منها، حيث قد تنفق الملايين في جمع البيانات الجديدة أو تحليلها لاستخلاص رؤى من المعلومات ذات الصلة التي تمتلكها بالفعل – ويمكنها الكشف عنها بالتقنيات المناسبة والاستفادة منها.
أنواع البيانات المتخفية
البيانات المختفية تنقسم إلى ثلاث فئات:
- بيانات هامة للأعمال أو المنظمة، وهي المعلومات القيّمة للغاية ذات الصلة بالنمو المستمر للأعمال التجارية وتحقيق أهدافها
- البيانات الزائدة عن الحاجة وغير الحديثة والبديهية (ROT) في الشبكات الداخلية والتي بمجرد اكتشافها، يمكن تمييزها للحذف أو نقلها إلى مهام إصلاح سير العمل
- البيانات المتخفية التي لا تعرف أنها تمتلكها، وبالتالي لا تستخدمها – وهذه تشكل خطرًا دائمًا عليها.
هذه البيانات _غير المعروفة_ يمكن أن توجد في أي مكان، وتشكل البيانات غير المصنفة نصيب الأسد من البيانات المتخفية (المظلمة)، ويمكن أن توجد في بعض مصادر البيانات غير المنظمة، والمنظمة، وشبه المنظمة. كما أن البيانات غير المستغلة قد تتكون من بيانات منسية، وبيانات وصفية، وبيانات منتهية الصلاحية وحساسة تجاه العامل الزمني، والتي لم تعد ذات صلة، وغيرها. ومن الأمثلة الشائعة على ذلك، ما يلي:
- رسائل البريد الإلكتروني ومرفقاتها
- الملفات المضغوطة التي يتم تنزيلها ثم نسيانها
- بيانات الموظف السابق، بما في ذلك ملفات المشروع والملاحظات
- العروض التقديمية وجداول البيانات
- بيانات تحديد الموقع الجغرافي
- ملفات الدخول ومعلومات الحساب
- تاريخ المعاملات
- سجلات مكالمات العملاء وملفاتهم
- ملفات الصوت والفيديو والصور والنصوص
- القوائم المالية
مصدر البيانات المتخفية ؟
تقول شركة غارتنر Gartner للأبحاث والاستشارات التقنية أن البيانات المظلمة هي : “الأصول المعلوماتية التي تقوم المنظمات بجمعها ومعالجتها وتخزينها أثناء أنشطة الأعمال العادية، ولكنها تفشل عمومًا في استخدامها لأغراض أخرى”.
وعليه، غالبًا ما يتم جمع البيانات غير المستخدمة مع البيانات التي يتم استخدامها ومعالجتها، وأي بيانات، في أي موقع كان – يتم تخزينها عبر أي نوع من مصادر البيانات، في مكان العمل أو في السحابة الإلكترونية – يمكن أن تكون بيانات مظلمة. وهناك مما نسبته (15٪) من بيانات المنظمة العادية، هي بيانات أعمال مهمة، و(33٪) منها بيانات زائدة عن الحاجة وغير حديثة وبديهية (ROT)، بينما (52٪) منها بيانات مظلمة – والبيانات المتخفية بطبيعتها الخفية للغاية عرضة للمخاطر المستمرة.
كيف يجب أن تتعامل مع البيانات المظلمة؟
جمع البيانات المختفية وتصنيفها يعد أمرًا بالغ الأهمية لمبادرات الخصوصية والأمان والامتثال للمنظمات. وإذا كنت لا تعرف بأنها موجودة، فلا يمكنك التأكد من أنها تلبي مبدأ الامتثال – ولا يمكنك تلبية معايير خصوصية البيانات إذا لم تتمكن من ربط بياناتك بهوية.
بالإضافة إلى ذلك، لا يمكنك حماية البيانات التي لا تعرف بأنها موجودة لديك أصلاً – أو معرفة مستوى الحماية الذي تحتاجه هذه البيانات، وبالتالي، فإن البيانات المتخفية في الأماكن المظلمة تنطوي على مستويات غير معروفة من المخاطر، ولكنها غالبًا ما تكون أكثر عرضة لخرق البيانات وتسربها- وهي على أية حال أمور مخيفة جدًا، مع الأخذ في الاعتبار بأنها قد تحتوي على الأرجح على معلومات شخصية وحساسة.
بالنسبة للعديد من المنظمات، فإن البدء في جمع البيانات غير المستغلة قد يبدو أمرًا مربكًا، لكن عملية البحث عن القيمة وتصنيفها وتحليلها والاستفادة من قيمتها هو مجرد تنفيذ لحل الاكتشاف الصحيح. وتحتاج إلى تقنية تعتمد على التعلم الآلي مع أساس اكتشاف عميق يمكنه العثور على البيانات المنبثة بين جميع الأنظمة والمصادر – وفي كل جزء في المنظمة، بغض النظر عن مكان اختبائها.
أساليب تحليل البيانات المتخفية
تشير أساليب تحليل البيانات المظلمة إلى الحلول التقنية التي تستخدم لتحديد موقع البيانات المتخفية بحيث يمكن الاستفادة من قيمتها لاتخاذ قرارات العمل بشكل أفضل.
والمنظمات التي تعطي الأولوية لاستخراج البيانات المظلمة تتمتع بالاستعداد الجيد لتقليل المخاطر وإطلاق العنان لرؤى الأعمال القيّمة التي يمكن أن تساعدها على النمو والازدهار، تمكين الحل الذي يساعد على نقل البيانات غير المستغلة سابقًا إلى نظام أساسي لتحليلات البيانات يمكن أن يوفر عرضًا أوسع وأكثر دقة لبيانات المتعاملين عبر المنظمة بأكملها.
كيف تعرِّف البيانات المظلمة وكيف تقوم بإزالتها؟
هناك شركات متخصصة من أجل اكتشاف جميع البيانات المخفية hidden data في المنظمة من خلال منصة التعلم الآلي القوية الذي تقوم تلقائيًا بالعثور على جميع البيانات المتخفية التي تحتفظ بها الشركة ويقوم بتصنيفها وفهرستها، بغض النظر عن المكان الذي توجد فيه، أو المدة الزمنية التي استغرقتها، أو إلى أي مدى كانت مخفية، بالتالي تحقق ما يلي:
- اكتشاف وتصنيف جميع البيانات المتخفية تلقائيًا – بما في ذلك البيانات الشخصية والحساسة التي يجب أن تفي بمعايير الامتثال – بناءً على محتوى وهيكل البيانات.
- تنظيف جميع البيانات غير المستغلة، وتحديد علاقتها، وإضافة السياق.
- تحديد وقياس وإدارة المخاطر على البيانات المخفية بحيث يمكن حمايتها بشكل مناسب.
- دمج البيانات المتخفية في مخزون موحد يعمل كمصدر وحيد للحقيقة بالنسبة للمنظمة.
- الكشف التلقائي عن البيانات غير المعروفة التي ترتبط بهوية أو كيان موجود.
- اتخاذ الإجراءات اللازمة للاستفادة من قيمة البيانات المتخفية – وإنشاء تدفقات عمل للاحتفاظ بها ومعالجتها وتقليل المخاطر التي تهددها.
- تلبية الامتثال لأي لائحة تتعلق بالعمل.
المصدر: BigID