انتقد الدكتور محمد القنيبط ذات مرة حديثي عن "خبراء الاقتصاد المعرفي". وهو كغيره من المختصين ينتقدون تقديم مصطلحات جديدة لعلم أو تخصص معروف وقائم. أقدم لكم الآن مصطلحا جديدا لتخصص كنا نظن أنه موجود وهو "علماء البيانات" الذي بدأ في الظهور منذ أقل من سنتين تقريباً في المجتمع المعلوماتي ومجتمع علوم الحاسب الآلي، والبعض يعتبر أن هذا العلم هو ما نحتاجه في المستقبل القريب، وهو الوسيلة لاستثمار المعرفة التي تتولد عن البشر يومياً.
تختلف البيانات عن المعلومات. فالبيانات هي مجموعة من الحروف والكلمات والأرقام والرموز والصور والأصوات والفيديو غير المبوبة أو منسقة لتشكل معنى محددا، بينما المعلومات هي البيانات بعد معالجتها وتوثيق صلة مفرداتها ببعضها البعض.
البيانات التي نتحدث عنها هي النصوص والصور والفيديو والأصوات والرسوم البيانية التي نجدها في مواقع الإنترنت، وفي أماكن التواصل الاجتماعي. فمثلا، نجد أن صفحة في الفيسبوك تتحدث عن شأن اجتماعي بلغة عامية، وبأسلوب غير علمي، وموضحاً بالصور لكنها تحتوي على معلومات وعقلنا البشري يستطيع استخلاص معان معينة حينما يقرأها، ويبوبها في عقله، ويجدولها ويربطها مع معلومات سابقة، ومع معلومات من مصادر أخرى اطلع عليها ذات اليوم أو في يوم آخر.
أدت وسائل إنشاء ونشر البيانات إلى تكاثرها بشكل تضاعفي كل سنة، وبشكل يفوق القدرات البشرية على استيعابها، وفهمها، والاستفادة منها. ويقدر أن 90% من البيانات المتوفرة حالياً في العالم قد تكونت خلال السنتين الماضيتين فقط. ونشهد حالياً تكاثر بيانات الوسائط المتعددة مثل الفيديو والصوت والصورة بشكل أكبر من ذي قبل، خاصة مع تزايد انتشار الأجهزة الذكية، ووسائل التخزين السحابية. ومع ذلك فإن الوصول إلى هذه البيانات ما زال صعباً. فرئيس شركة (جوجل) صرح ذات مرة بأن جوجل لم تستطع إلا الوصول إلى نسبة ضئيلة جداً من الإنترنت تقدر بأقل من واحد بالمئة.
من الصعب قياس حجم الإنترنت لأنها تتزايد في كل ثانية، ومن مصادر من مختلف دول العالم، بدون أن يكون هناك مركز تخزين موحد لها. يقيس البعض حجم الإنترنت ببعض المؤشرات العامة التي تقدم أكثر من رقم محدد يعبر عن الحجم بوسيلة يمكن مراقبتها. من هذه المؤشرات عدد مواقع الإنترنت الذي وصل في نهاية عام 2012 إلى 634 مليون موقع، يستخدمها حوالى ثلاثة مليارات مستخدم حول العالم، يرسلون أكثر من 200 مليون إيميل سنوياً، وثلثهم يستخدم فيسبوك. ويقدر أن حجم البيانات التي تبادلها الناس بنهاية عام 2011 كانت 27 مليار "حرف" شهرياً.
علماء البيانات هم الذين يدرسون ويبحثون في وضع حلول لاستخلاص المعلومات من هذه الكمية الهائلة من البيانات. وهم يسعون لبناء نظام قادر على النفاذ لهذه المعلومات آنياً، أو تاريخياً وتحليلها وإتاحة المجال للمستخدم بأن يبحث عن المعلومات حسب المحددات التي يريدها. وهم تماماً مثل من يبحث عن الإبرة في كومة القش، مع الفارق بأن كومة القش تتزايد، وتكبر، أثناء بحثهم، وأن الإبرة تتشابه كثيراً مع حبات القش الأخرى.
استخلاص المعلومات من البيانات بشكل آلي يفتح المجال لتطبيقات متعددة في مجالات الأمن، والصحة، والتعليم، والتجسس، وفي ضروب العلم والمعرفة. ولذلك بدأت عدة جامعات مرموقة في أميركا بتقديم منح علمية، ودراسات عليا في علم البيانات.
أثناء دراستي في المرحلة المتوسطة، حينما قرأ أحد الزملاء كلمة "أعلاها" في أحد النصوص المدرسية، ونطقها "علاويها". ضحكنا كلنا وصححناه، ولكننا فهمنا ما قال. تبرز هذه الحادثة معضلة يواجهها علماء البيانات. فالتعامل مع البيانات أمر صعب، يزيد من صعوبته استخدام كلمات عامية، أو استخدام شاذ للكلمات والمصطلحات. كما أن الزمن يزيد من صعوبة التحليل الآني للبيانات، إذ إن حجم البيانات المتدفق على الإنترنت في كل لحظة يفوق القدرة على معالجتها، ففي الزمن الذي يستغرقه العلماء للوصول إلى البيانات فهناك أضعاف هذه البيانات قد تولدت، وفي الوقت الذي سيستغرقه لتحليل هذه البيانات، تكون أضعافها قد تكونت في إحدى زوايا الإنترنت.
من يستطيع أن يطور وسيلة تستطيع تحليل هذه البيانات المنتشرة في عدة مصادر، وبعدة لغات، وتوليد معلومات مفيدة، ومقارنتها ببعضها البعض، وتوثيقها، ومعرفة مدى دقتها وصحتها، سيكون بكل تأكيد هو "ملياردير العقد القادم".