عالم البيانات مقابل محلل البيانات مقابل مهندس البيانات باستخدام Word Cloud

غالبًا ما تستخدم مصطلحات عالم البيانات ومحلل البيانات ومهندس البيانات بالتبادل. على الرغم من أن الثلاثة هم أدوار تركز على البيانات ، إلا أن لديهم اختلافات دقيقة تفصلهم عن بعضهم البعض. حتى مع استخدام شركات التوظيف لمناصب الوظيفة بالتبادل ، دعونا نلقي نظرة على فهم أسماء الوظائف التي نستخدمها .... البيانات!!

الحب الأول .. دعنا نسأل جوجل

عالم البيانات

العلماء البيانات هي wranglers البيانات الكبيرة. يأخذون كتلة هائلة من نقاط البيانات الفوضوية (غير المهيكلة والمنظمة) ويستخدمون مهاراتهم الهائلة في الرياضيات والإحصاء والبرمجة لتنظيفها وتدليكها وتنظيمها. ثم يطبقون جميع قدراتهم التحليلية - معرفة الصناعة ، وفهم السياق ، والشك في الافتراضات القائمة - للكشف عن حلول خفية لتحديات العمل.

محلل بيانات

يقوم محللو البيانات بجمع وتحليل وإجراء التحليلات الإحصائية للبيانات. قد لا تكون مهاراتهم متقدمة مثل علماء البيانات (على سبيل المثال ، قد لا يتمكنون من إنشاء خوارزميات جديدة) ، لكن أهدافهم متشابهة - لاكتشاف كيفية استخدام البيانات للإجابة على الأسئلة وحل المشكلات.

مهندس بيانات

مهندسي البيانات بناء خزانات ضخمة للبيانات الكبيرة. يقومون بتطوير وإنشاء واختبار وصيانة أبنية مثل قواعد البيانات وأنظمة معالجة البيانات على نطاق واسع. ما أن يتم تثبيت خطوط أنابيب مستمرة في "مجموعات" المعلومات التي تمت تصفيتها - ومنها - يمكن لعلماء البيانات سحب مجموعات البيانات ذات الصلة لتحليلهم.

التعاريف المذكورة أعلاه غامضة بعض الشيء ولا تشرح بوضوح ما هي مجموعة المهارات التي تتوقعها الشركة من مرشح محتمل لأدوار معينة.

النهج الذي سنتخذه في فهم الاختلافات في المسميات الوظيفية

كلمة سحابة

Word Cloud هي صورة مكونة من كلمات تستخدم في نص معين أو موضوع معين ، يشير فيه حجم كل كلمة إلى ترددها في المستندات.

البيانات من ينكدين

قمنا بجمع حوالي 20 من بيانات "وصف الوظيفة والمسؤوليات" لكل من الأدوار على LinkedIn و kaggle و Glassdoor التي نشرتها شركات متعددة. قد يساعدنا إنشاء كلمات في السحب باستخدام هذه البيانات في تمييز الأدوار بوضوح. ومع ذلك ، كما هو الحال مع العديد من تحليلات علم البيانات ، خذ هذا التحليل بحبوب ملح حتى نبني مجموعة بيانات واسعة من التوصيف الوظيفي والمسؤوليات ويفضل 100 شركة لكل وظيفة من وظائف :)

توليد كلمة سحابة - رمز بيثون

يتم حفظ البيانات المستخرجة في ملفات نصية وتستخدم لإنشاء كلمة سحابة. يستخدم هذا مكتبة word_cloud التي يمكن تثبيتها باستخدام 'pip install word cloud'

من wordcloud استيراد WordCloud
استيراد matplotlib.pyplot كما PLT
## مسؤوليات محلل البيانات
f = open ('data / Data_analyst_responsibility.txt'، 'r')
    data_analyst_resp = f.read ()
    f.close ()

##### مهارات محلل البيانات
f = open ('data / Data_analyst_skill.txt'، 'r')
    data_analyst_skill = f.read ()
    f.close ()
##### مسؤوليات عالم البيانات
f = open ('data / data_scientist_responsibility.txt'، 'r')
    data_scientist_responsibility = f.read ()
    f.close ()
##### مهارات عالم البيانات
f = open ('data / data_scientist_skills.txt'، 'r')
    data_scientist_skills = f.read ()
    f.close ()
def word_cloud_job_title (data، font_size = 40، title = ''):
   "" "وظيفة لرسم كلمة سحابة" ""
    كلمات التوقف = ["إلخ" ، "سنوات" ، "إلخ" ، "درجة" ، "مهارة" ،
"باستخدام" ، "مفضل" ، "حقل" ، "قائم" ، "مرتبط" ، "يشمل" ، "قدرة" ، "تجربة"]
    البيانات = data.lower ()
    لكلمة في كلمات التوقف:
        إذا كلمة في البيانات:
           البيانات = data.replace (كلمة، "")

           #Generate صورة سحابة كلمة
           wordcloud = WordCloud (). توليد (بيانات)

           # عرض الصورة التي تم إنشاؤها:
           # طريقة matplotlib:
           plt.imshow (wordcloud، interpolation = 'bilinear')
           plt.axis ( "إيقاف")
           الشكل = plt.gcf ()
           fig.set_size_inches (15،10)
           plt.title (title، fontsize = 24)
           plt.show ()

           ### Data_analyst المسؤولية
           word_cloud_job_title (data_analyst_resp، title = 'data_analyst_responsibility')

           ### مهارة تحليل البيانات
          word_cloud_job_title (data_analyst_skill، title = 'data_analyst_skill')

           ### مسؤولية عالم البيانات
          word_cloud_job_title (data_scientist_responsibility، title = 'data_scientist_responsibility')

           ### مهارات عالم البيانات
          word_cloud_job_title (data_scientist_skills، title = 'data_scientist_skills')

           ### مسؤولية مهندس البيانات
          word_cloud_job_title (data_scientist_responsibility، title = 'data_scientist_responsibility')

           ### مهارات مهندس البيانات
          word_cloud_job_title (data_scientist_skills، title = 'data_scientist_skills')
تصدير الصور Matplotlib
استنتاج

أي شركة تشارك في معالجة كميات كبيرة من البيانات سيكون لها موظفون في جميع الأدوار الثلاثة يعملون بالترادف. من مجموعة كلمات مهارات مهندس البيانات ، نلاحظ الكثير من الكلمات الأساسية مثل SQL و Spark و Hadoop التي تستخدم في الغالب لمعالجة البيانات. يعالج مهندسو البيانات البيانات الضخمة باستخدام هذه البرامج ويسهلون على علماء البيانات والمحللين التعامل مع البيانات المجمعة.

بينما يعمل كل من علماء ومحللي البيانات عن كثب مع فريق العمل لإسداء المشورة لهم بشأن القرارات التي تستند إلى النتائج التي توصلوا إليها مع البيانات المقدمة ، يعمل علماء البيانات أيضًا على تطوير نماذج التنبؤ ، وبالتالي يتوقع المزيد من المؤهلات في البرمجة والإحصاءات والاستعداد الكمي. ويمكن ملاحظة ذلك مرة أخرى باستخدام الكلمات الأساسية السحابية التي تم إنشاؤها لمهارات عالم البيانات (python ، والإحصائيات ، والتعلم الآلي).

المتغيرات:

محلل البيانات: المنتج / التسويق / محلل المخاطر

عالم البيانات: مشارك / كبير / رئيس / عالم بيانات المنتج

مهندس البيانات: مهندس تعلم الآلة / مهندس بيانات كبير

شارك في كتابة هذا المقال آشيش خان ، وهو أيضًا محرّر مجاني في Machine Learning ، وتطبيق android ، وتصميم مواقع الويب وعلوم البيانات. تحقق من موقعه على الانترنت هنا للحصول على المتعة والأشياء المثيرة التي يمكن للمرء القيام بها مع البيانات. ويمكنك العثور على عملي على جيثب هنا.

المراجع:

  1. جوجل!
  2. توصيفات الوظائف المرتبطة بـ Linkedin و Kaggle و Glassdoor عن محلل البيانات وعالم البيانات ومهندس البيانات
  3. المواد المهنية Springboard. (حاليا ، أنا جزء من برنامج المسار الوظيفي لعلوم البيانات)