البيانات الاصطناعية هي بيانات مُصنَّعة تهدف إلى محاكاة البيانات الحقيقية. يتم إنشاؤها باستخدام أساليب إحصائية أو تقنيات الذكاء الاصطناعي مثل التعلم العميق و الذكاء الاصطناعي التوليدي.
على الرغم من أنها مُنشأة اصطناعيًا، تحتفظ البيانات الاصطناعية بالخصائص الإحصائية الأساسية للبيانات الأصلية التي تستند إليها. وبذلك، يمكن لمجموعات البيانات الاصطناعية أن تُكمل مجموعات البيانات الحقيقية أو تحل محلها.
يمكن أن تعمل البيانات الاصطناعية كبديل مؤقت لبيانات الاختبار، وهي تُستخدم بشكل أساسي في تدريب نماذج التعلم الآلي، ما يوفِّر حلًا محتملًا للنقص المتزايد في توافر بيانات تدريب عالية الجودة لنماذج الذكاء الاصطناعي. ومع ذلك، تكتسب البيانات الاصطناعية اهتمامًا متزايدًا في قطاعات مثل التمويل والرعاية الصحية، حيث تكون البيانات محدودة، أو يستغرق الحصول عليها وقتًا طويلًا؛ أو يصعب الوصول إليها بسبب متطلبات خصوصية البيانات والأمان. في الواقع، تتوقع شركة الأبحاث Gartner أن 75% من الشركات ستستخدم الذكاء الاصطناعي التوليدي لإنشاء بيانات عملاء اصطناعية بحلول عام 2026.1
يمكن أن تكون البيانات الاصطناعية في شكل وسائط متعددة أو جداول أو نصوص. يمكن استخدام البيانات الاصطناعية النصية في معالجة اللغة الطبيعية (NLP)، بينما يمكن استخدام البيانات الاصطناعية الجدولية لإنشاء جداول قواعد البيانات العلائقية. يمكن استخدام الوسائط المتعددة الاصطناعية، مثل الفيديو والصور أو البيانات غير المنظمة الأخرى، في مهام رؤية الكمبيوتر مثل تصنيف الصور، والتعرُّف على الصور، واكتشاف الكائنات.
يمكن أيضًا تصنيف البيانات الاصطناعية وفقًا لمستوى الاصطناع الخاص بها:
البيانات الاصطناعية بالكامل تتضمن إنشاء بيانات جديدة تمامًا لا تحتوي على أي معلومات من العالم الواقعي. ويتم تقدير السمات والأنماط والعلاقات التي تدعم البيانات الحقيقية لمحاكاتها بأكبر قدر ممكن من الدقة.
على سبيل المثال، قد تفتقر المؤسسات المالية إلى عينات من المعاملات المشبوهة لتدريب نماذج الذكاء الاصطناعي بفاعلية على الكشف عن الغش. يمكنها بعد ذلك إنشاء بيانات اصطناعية بالكامل تمثِّل المعاملات الاحتيالية لتحسين تدريب النماذج، وهو نهج مشابه لما تتبعه شركة الخدمات المالية J.P. Morgan.
البيانات الاصطناعية جزئيًا تكون مشتقة من معلومات حقيقية، ولكنها تستبدل أجزاءً من مجموعة البيانات الأصلية -عادةً تلك التي تحتوي على معلومات حساسة- بقيم اصطناعية. تساعد هذه التقنية التي تحافظ على الخصوصية على حماية البيانات الشخصية مع الحفاظ في الوقت نفسه على خصائص البيانات الحقيقية.
يمكن أن تكون البيانات الاصطناعية جزئيًا ذات قيمة خاصة في الأبحاث السريرية، على سبيل المثال، حيث تكون البيانات الحقيقية ضرورية للنتائج، لكن من المهم أيضًا حماية معلومات التعريف الشخصية (PII) والسجلات الطبية.
تجمع البيانات الاصطناعية الهجينة بين مجموعات البيانات الحقيقية والبيانات الاصطناعية بالكامل. وهي تأخذ سجلات من مجموعة البيانات الأصلية وتربطها عشوائيًا مع سجلات من نظيراتها الاصطناعية. يمكن استخدام البيانات الاصطناعية الهجينة لتحليل واستخلاص الرؤى من بيانات العملاء، على سبيل المثال، دون تتبُّع أي بيانات حساسة لعميل معين.
تستطيع المؤسسات اختيار إنشاء بيانات اصطناعية خاصة بها. ويمكنها أيضًا استخدام حلول مثل Synthetic Data Vault، وهي مكتبة Python لإنشاء البيانات الاصطناعية، أو اللجوء إلى خوارزميات مفتوحة المصدر وأُطر العمل والحزم والأدوات الأخرى. وتُعَد مجموعات البيانات الجاهزة، مثل IBM Synthetic Data Sets، خيارًا آخر.
فيما يلي بعض التقنيات الشائعة لإنشاء البيانات الاصطناعية:
هذه المنهجيات مناسبة للبيانات التي تُعَرف توزيعاتها وارتباطاتها وخصائصها جيدًا، ما يسمح بمحاكاتها من خلال النماذج الرياضية.
في الأساليب القائمة على التوزيع، يمكن استخدام الدوال الإحصائية لتحديد توزيع البيانات. بعد ذلك، يمكن إنشاء نقاط بيانات جديدة من خلال أخذ العينات بشكل عشوائي من هذا التوزيع.
بالنسبة إلى الاستراتيجيات القائمة على الارتباط، يمكن تطبيق الاستيفاء أو الاستقراء. في بيانات السلاسل الزمنية، على سبيل المثال، يمكن للاستيفاء الخطي إنشاء نقاط بيانات جديدة بين النقاط المتجاورة، بينما يمكن للاستقراء الخطي توليد نقاط بيانات تتجاوز النقاط الحالية.
تتضمن الشبكات التنافسية التوليدية (GANs) زوجًا من الشبكات العصبية: أداة توليد تُنشئ بيانات اصطناعية، وأداة تمييز تعمل كخصم يميِّز بين البيانات الحقيقية والاصطناعية. يتم تدريب كلتا الشبكتين بشكل تكراري، حيث يساهم تقييم أداة التمييز في تحسين مخرجات أداة التوليد إلى أن تعجز أداة التمييز عن التفرقة بين البيانات الاصطناعية والحقيقية. غالبًا ما تُستخدَم شبكات GAN لإنشاء الصور.
تعمل نماذج المحولات، مثل المحولات التوليدية مسبقة التدريب (GPTs) من OpenAI، كأساس لكل من النماذج اللغوية الصغيرة (SLMs) والنماذج اللغوية الكبيرة (LLMs). تُعالج المحولات البيانات باستخدام أجهزة التشفير وأجهزة فك التشفير.
تحوِّل أجهزة التشفير تسلسلات المدخلات إلى تمثيلات رقمية تُسمَّى التضمينات التي تلتقط دلالات الرموز ومواقعها في تسلسل المدخلات. تُتيح آلية الانتباه الذاتي تركيز الانتباه على الرموز الأكثر أهمية في تسلسل المدخلات في بعض الحالات، بغض النظر عن موقعها. ثم تستخدِم أدوات فك التشفير آلية الانتباه الذاتي وتضمينات أدوات التشفير لإنشاء تسلسل المخرجات الأكثر احتمالًا من الناحية الإحصائية.
تتفوق نماذج المحولات في فهم بنية اللغة وأنماطها. وبذلك، يمكن استخدامها لإنشاء بيانات نصية اصطناعية أو توليد بيانات جدولية اصطناعية.
أدوات التشفير التلقائية المتغيرة (VAEs) هي نماذج توليدية تُنتج بيانات متنوعة بناءً على البيانات التي تم تدريبها عليها. تعمل أداة التشفير على ضغط بيانات الإدخال إلى فضاء منخفض الأبعاد، ما يساعد على استخلاص المعلومات المهمة الموجودة في البيانات. ثم تُعيد أداة فك التشفير بناء بيانات جديدة من هذا التمثيل المضغوط. مثل شبكات GAN، يمكن استخدام أدوات VAE لتوليد صور اصطناعية.
تعتمد هذه الاستراتيجية في المحاكاة على نمذجة نظام معقد كبيئة افتراضية تحتوي على كيانات فردية، تُعرَف أيضًا بالوكلاء. يعمل الوكلاء وفق مجموعة محددة من القواعد، حيث يتفاعلون مع بيئتهم ومع وكلاء آخرين. تحاكي النمذجة المستندة إلى الوكيل هذه التفاعلات وسلوكيات الوكيل لإنتاج بيانات اصطناعية.
على سبيل المثال، تمثل النماذج القائمة على الوكلاء في علم الأوبئة الأفراد في السكان كوكلاء. عند نمذجة تفاعلات الوكيل، يمكن إنشاء بيانات اصطناعية مثل معدل الاتصال واحتمالية الإصابة. يمكن أن تساعد البيانات بعد ذلك على التنبؤ بانتشار الأمراض المُعدية وفحص آثار التدخلات.
تُعَد البيانات الاصطناعية تقنية متنامية، وتقدم هذه المزايا للمؤسسات:
يمكن لفرق علم البيانات تخصيص البيانات الاصطناعية لتناسب المواصفات والاحتياجات الدقيقة للشركة. ولأن علماء البيانات لديهم تحكم أكبر في مجموعات البيانات، يصبح تحليلها وإدارتها أسهل.
يؤدي توليد البيانات الاصطناعية إلى التخلص من عملية جمع البيانات الحقيقية التي تستغرق وقتًا طويلًا، ما يجعل إنتاجها أسرع ويساعد على تسريع عمليات سير العمل. تأتي البيانات الاصطناعية أيضًا مصنفة مسبقًا، ما يؤدي إلى إزالة الخطوة الشاقة المتمثلة في تصنيف أحجام البيانات والتعليق عليها يدويًا.
تشبه البيانات الاصطناعية بيانات العالم الحقيقي، ولكن يمكن إنشاؤها بحيث لا يمكن تتبُّع أي بيانات شخصية لفرد معين. يعمل هذا كشكل من أشكال إخفاء هوية البيانات، ما يساعد في الحفاظ على أمان المعلومات الحساسة. تُتيح البيانات الاصطناعية أيضًا للشركات تجنُّب قضايا الملكية الفكرية وحقوق الطبع والنشر، ما يزيل الحاجة إلى برامج الزحف على الويب التي تجمع المعلومات من المواقع الإلكترونية دون علم المستخدمين أو موافقتهم.
يمكن أن تساعد مجموعات البيانات الاصطناعية على تعزيز تنوع البيانات، من خلال إنشاء أو تكبير البيانات للمجموعات التي تكون ممثلة بشكل ضعيف في تدريب الذكاء الاصطناعي. يمكن للبيانات الاصطناعية أيضًا سد الفجوات عندما تكون البيانات الأصلية نادرة أو حال عدم وجود بيانات حقيقية. وإدراج الحالات النادرة أو القيم الشاذة كنقاط بيانات يمكن أن يوسِّع نطاق مجموعات البيانات الاصطناعية، ما يعكس تنوع العالم الحقيقي وعدم قابليته للتنبؤ.
على الرغم من فوائد البيانات الاصطناعية، إلا أنها تحمل بعض الجوانب السلبية أيضًا. يمكن أن يساعد اتباع أفضل الممارسات لتوليد البيانات الاصطناعية على معالجة هذه العيوب ويُتيح للشركات تحقيق أقصى استفادة من البيانات الاصطناعية.
فيما يلي بعض التحديات المرتبطة بالبيانات الاصطناعية:
قد تُظهِر البيانات الاصطناعية أيضًا الانحيازات التي قد تكون موجودة في البيانات الواقعية التي استُند إليها. واستخدام مصادر بيانات متنوعة وإضافة مصادر بيانات متعددة، بما في ذلك من مناطق ومجموعات ديموغرافية مختلفة، يمكن أن يساعد على التخفيف من التحيز.
يحدث انهيار نموذج الذكاء الاصطناعي عندما يتم تدريب نموذج الذكاء الاصطناعي بشكل متكرر على البيانات التي تم إنشاؤها بواسطة الذكاء الاصطناعي، ما يتسبب في انخفاض الأداء. ويمكن أن يساعد المزيج الصحي من مجموعات بيانات التدريب الحقيقية والاصطناعية على منع هذه المشكلة.
خلال عملية توليد البيانات الاصطناعية، يحدث صراع بين الدقة والخصوصية. قد يعني إعطاء الأولوية للدقة الاحتفاظ بالمزيد من البيانات الشخصية، في حين أن الحفاظ على الخصوصية قد يؤدي إلى تقليل الدقة. ويُعَد العثور على التوازن الصحيح لحالات استخدام الشركة أمرًا حيويًا.
يجب إجراء فحوصات واختبارات إضافية للتحقق من جودة البيانات بعد إنشائها. يضيف ذلك خطوة إضافية إلى سير العمل، لكنها خطوة حاسمة لضمان خلو مجموعات البيانات الاصطناعية من أي أخطاء أو تناقضات أو عدم دقة.
البيانات الاصطناعية متعددة الاستخدامات ويمكن توليدها لمجموعة واسعة من التطبيقات. إليك بعض المجالات التي يمكن أن تكون فيها البيانات الاصطناعية ذات فائدة كبيرة:
يمكن استخدام النمذجة القائمة على الوكيل لتوليد بيانات اصطناعية تتعلق بتدفق حركة المرور، ما يساعد على تحسين أنظمة الطرق والنقل. ويمكن أن يساعد استخدام البيانات الاصطناعية مصنِّعي السيارات على تجنب العملية المكلفة والمستهلكة للوقت للحصول على بيانات الاصطدام الحقيقية لاختبار سلامة السيارة. يمكن لصانعي المركبات ذاتية القيادة استخدام البيانات الاصطناعية لتدريب السيارات ذاتية القيادة على التنقل في سيناريوهات مختلفة.
يمكن تطبيق البيانات المالية الاصطناعية لتقييم وإدارة المخاطر، والنمذجة التنبؤية والتنبؤ، واختبار خوارزميات التداول، بالإضافة إلى العديد من التطبيقات الأخرى. على سبيل المثال، تتكون مجموعات البيانات الاصطناعية من IBM من بيانات محاكاة للمساعدة على الكشف عن الغش في بطاقات الائتمان ومطالبات التأمين على المنازل والمعاملات المصرفية التي تمت محاكاتها لحلول مكافحة غسيل الأموال.
يمكن أن تساعد مجموعات البيانات الاصطناعية شركات الأدوية على تسريع تطوير الأدوية. وفي الوقت نفسه، يمكن للباحثين الطبيين استخدام البيانات الاصطناعية جزئيًا للتجارب السريرية أو البيانات الاصطناعية بالكامل لإنشاء سجلات اصطناعية للمرضى أو التصوير الطبي لصياغة علاجات مبتكرة أو وقائية. ويمكن أيضًا تطبيق النمذجة القائمة على الوكيل في علم الأوبئة لدراسة انتقال المرض والتدخلات.
يمكن لشركات التصنيع استخدام البيانات الاصطناعية لتحسين قدرات الفحص البصري لنماذج رؤية الكمبيوتر التي تفحص المنتجات في الوقت الفعلي بحثًا عن العيوب والانحرافات عن المعايير. يمكن لمجموعات البيانات الاصطناعية أيضًا تعزيز الصيانة التنبؤية، حيث تساعد بيانات المستشعر الاصطناعي نماذج التعلم الآلي على توقع أعطال المعدات بشكل أفضل والتوصية بالتدابير المناسبة في الوقت المناسب.
1 3 Bold and Actionable Predictions for the Future of GenAI, Gartner, 12 April 2024