الحاجة الى تصنيف حديث للبيانات … لماذا؟

  • — الإثنين فبراير 14, 2022

لم يكن تصنيف البيانات Classification بالأمر السهل، تاريخياً عانى أرسطو الأمرين من ذلك عندما حاول تقسيم الكائنات الحية إلى مجموعتين (نباتات وحيوانات) ثم حاول تقسيم كل مجموعة إلى ثلاث مجموعات حيث اشتملت المجموعة الأولى على (أشجار، وشجيرات، وأعشاب) والمجموعة الأخرى على (الحيوانات البرية، والتي تطير في الهواء، والمائية)، ولم يكن ذلك كافيًا، فإذا صنف طائر بعينه على أنه من الحيوانات التي تطير- فماذا عن البطاريق وبقية الطيور الأخرى التي لا تطير؟!!

في القرن الثامن عشر، أصبح الأمر أكثر دقة، فعندما أحدث لينيوس Linnaeus ثورة في التصنيف، عندما قدم تصنيف الكائنات إلى مملكة، وشعب، وطبقة، ونظام، وما إلى ذلك – وهي التصنيفات التي تدرس في مقررات علم الأحياء، لكن حتى هذه التعريفات تصبح ضبابية عندما يبدأ علماء الأحياء في تفسير العلاقات بين الكائنات الحية – الطيور والتماسيح والديناصورات، كلها مرتبطة، ولكن في فئات مختلفة تمامًا.

في عالم البيانات فإن الأمر يصبح أكثر تعقيدًا

يعد التصنيف من المفاتيح الرئيسية لفهم البيانات – ويساعدك على الاستفادة من البيانات التي بحوزتك: ولعله من الأهمية بمكان أن تكون قادرًا على تقليل المخاطر، واتخاذ قرارات استراتيجية strategic decisions، والحفاظ على مبدأ الامتثال  sustain compliance، وتسريع الحوكمة  accelerate governance، والحفاظ على (أو تقليل) البيانات الصحيحة، وإدارة خصوصية البيانات data privacy، وحماية بياناتك في المقام الأول.

إن التصنيف التقليدي للبيانات يعد قاصراً: إذ لا تصنف البيانات وتبوب بشكل متسق ، فهو يفتقر إلى السياق، كما أنه مزعج وغير موثوق.

يمكنك وسم أو تبويب أو تصنيف بياناتك يدوياً- بيد أن هذا يستغرق المزيد من الوقت، فهو فضلاً عن أنه عرضة للخطأ، لا يمكنك فهم العلاقات بين نقاط البيانات  data points. هل هي جزء من مجموعة أكبر؟ أم أنها جزء من هوية؟ وهل هي بيانات منظمة regulated data؟

فمثلاً البيانات التي تتبع نمطًا معينًا: قد يعني الرقم المكون من 7 أرقام الذي يبدأ بـ(312) رقم هاتف برمز منطقة شيكاغو مثلاً، ولكن ماذا لو كان رقم حساب بدلاً من ذلك؟

من الصعوبة بمكان تصنيف البيانات بشكل صحيح بدون سياق، وإذا حاولت تصنيف كلمة “بروكلين Brooklyn ” في مجموعة من البيانات، فكيف تعرف ما إذا كانت “بروكلين” تشير إلى حي في مدينة “نيويورك” الأمريكية، أو ضاحية في مدينة “ملبورن” الأسترالية أو تشير إلى الاسم الأول لشخص معين؟ كيف تعرف ما إذا كانت هذه الحالة المعينة من “بروكلين” عامة أم خاصة أم بيانات مقيدة؟

ما الذي يحتاجه تصنيف البيانات الحديثة؟

في ظل هذا الانتشار الهائل للبيانات في عصرنا الحالي، بات تصنيف البيانات الدقيقة والقابلة للتوسع أمرًا بالغ الأهمية، حيث تحتاج المؤسسات إلى اتباع أسلوب متعدد الطبقات من أجل بناء أساس للمنظمة لتكون قادرة على الحصول على المزيد من بياناتها – سواء كان ذلك لأغراض التحليل وأغراض العمل الاستراتيجي أو قيادة أمان البيانات والامتثال والحوكمة.

ويحتاج هذا التصنيف الحديث إلى معالجة المسائل التالية:

  • الدقة Accuracy: إذا كانت مزعجة noisy، وإذا كانت هناك الكثير من الإيجابية المضللة false positives، فقد تبدأ من نقطة الصفر. يجب أن يكون تصنيف البيانات الحديثة دقيقًا بحيث يمكن استخدامه في كل شيء بدءا من التحقق من صحة البيانات وحتى تنفيذ السياسة.
  • الأنماط والعلاقات Patterns and relationships: فهم نقطة زمنية واحدة شيء – والحصول على الصورة الكلية شيء آخر تمامًا، فمن الأهمية بمكان فهم علاقة البيانات ببعضها البعض وكيفية ارتباطها: هل هي كلها جزء من نفس المجموعة الخاضعة لذات الملكية الفكرية intellectual property؟ وهل كل ذلك يتعلق بنفس الفردية individual؟
  • السياق Context: إضافة السياق يؤدي إلى إحداث فرق كبير – فمع وجود السياق، ستتمكن من معرفة ما إذا كانت “بروكلين” هي المدينة المعروفة أم أنها الاسم الأول لشخص، حينئذ ستكون قادرًا على تصنيف البيانات المنظمة بالطريقة الصحيحة، وستتمكن من تطبيق السياسات تلقائيًا، وستنجح في تقليل الازعاج والاحتكاك.

لا يمكن القيام بذلك يدويًا – ليس من حيث معدل نمو البيانات ولا من حيث معدل تطور تعريف “البيانات الحساسة sensitive data “، ولا يمكنك استخدام نفس الأساليب القديمة وتغليفها في عبوات جديدة: ستحتاج إلى تصنيف بيانات مجربة وحقيقية باستخدام أحدث تقنيات التعلم الآلي (ML) ومعالجة اللغات الطبيعية (NLP) للحصول على تصنيف البيانات الذي يتوافق مع بيانات للعصر الحالي لتناسب تحديات الحاضر عبر الاستخدام والتخزين والنوع وغيره.

إن عملية تصنيف البيانات الحديث يتجاوز مجرد تعيين مستوى من الحساسية للبيانات، أو تصنيفها حسب السمة، والنوع، والمحتوى، فالتصنيف المطلوب يجمع بين هذه التقنيات والسياق المعزز بتقنيات التعلم الآلي (ml-augmented context)، ويطبق نقاط الثقة confidence scoring، ويدمج مكتبات السياسات  integrates policy libraries، ويمتد عبر جميع مخازن البيانات data silos بحيث يكون التصنيف على نطاق واسع هو الأساس الحقيقي لأي مبادرة بيانات ناجحة successful data initiative.

البيانات التي لا معنى لها هي مجرد ضوضاء بدون إيقاع. ويمكن أن يغير التصنيف الحديث ذلك – بإضافة ذكاء قابل للتنفيذ actionable intelligence بحيث يمكنك استخدام بياناتك في تحقيق المزيد من المنافع والفوائد.

المصدر: BigID