مهندسان داده، نسل جدیدی از متخصصان تحلیل داده هستند که مهارتهای فنی حل مشکلهای پیچیده را دارند و البته آنقدر کنجاو و دقیق هستند که مشکلات دادهای یک کسبوکار را پیدا و حل کنند. تعریف یک خطی این موقعیت شغلی این است:
«فردی که کدهای برنامهنویسی را زده و آنها را با دانش آماریاش ترکیب میکند تا از دادهها برداشتی معنیدار بسازد».
مهندسی داده چیست؟ این افراد هم ریاضیدان هستند، هم مهندس کامپیوتر و هم دنبالکننده ترندها. و دقیقا به همین دلیل که بین دنیای فناوری اطلاعات و کسبوکار در رفت و آمد هستند، بیشتر سازمانها آنها را استخدام میکنند و وظایف مهمی بر عهدهشان میگذارند (و البته دستمزد خوبی پرداخت میکنند). با این حساب همه دوست دارند دیتا ساینتیست باشند مگر نه؟
فراموش نکنید که مهندسی داده از دهه نود میلادی وجود دارد، اما حدود ده سال است که به مرکز توجه آمده، چرا؟ چون اکنون کسبوکارها در حال بررسی اَبَر داده یا بیگ دیتا هستند. این حجم غیرسازمانیافته و بزرگ اطلاعات را دیگر نمیتوان نادیده گرفت، آن هم وقتی که با منظم کردنش میتوانید برای کسبوکارتان سود و درآمد ایجاد کنید. در این مطلب مهندسی داده را بیشتر میشناسیم و تفاوت آن را با ماشین لرنینگ هم بررسی میکنیم.
مهندسان داده (Data Engineers) از کجا آمدند؟
بسیاری از مهندسان داده، مسیر شغلی خودشان را از تحلیل داده یا مهندسی آمار شروع کردهاند، اما با ترند شدن بیگ دیتا و ابزارهای آن، شغل آنها هم جلو رفت و پیشرفت کرد. دادهها هم دیگر محدود به گزارشهای IT نمیشوند و راهشان را به برنامههای مارکتینگ، اهداف بزرگ کسبوکار و تبلیغات آنلاین باز کردهاند. اطلاعات جمعآوری شده از مشتریان نیاز به تحلیل، کنجکاوی خلاقانه و البته ترجمه فنی دارند و مهندس داده دقیقا کسی است که این حجم اطلاعات را برمیدارد و آن را به سود تبدیل میکند. نقش مهندس یا تحلیلگر داده البته ریشههای آکادمیک دارد. چندین سال پیش، دانشگاهها نیاز به کارمندانی پیدا کردند که هم دانش برنامهنویسی داشته باشند و هم بتوانند به خوبی در قالب یک تیم کار کنند. این جا بود که تربیت دانشجویان را هدفدار طراحی کردند و موسساتی مثل انستیتو تحلیل پیشرفته در دانشگاه ایالت کارولینای شمالی، رشته دیتا ساینس را به رشتههایشان اضافه کردند. این روزها دورههای آموزشی زیادی در سر تا سر دنیا برای یادگیری ماشین لرنینگ و تحلیل داده برگزار میشوند و در ایالات متحده هم شصت دانشگاه خود این رشته را به صورت تخصصی آموزش میدهند.
تفاوت مهندسی داده و ماشین لرنینگ
دیتا ساینس علمی است روشمند که برای استخراج معنا و بینش از داده به کار میرود. یکی از معانی رایج و البته گویای این علم این است «ترکیبی از فناوری اطلاعات، مدلسازی و مدیریت کسبوکار». دانشگاهها هم کم کم به اهمیت این رشته پی میبرند و رشته آن را به برنامههایشان اضافه میکنند. ماشین لرنینگ اما به گروهی از تکنیکها اطلاق میشود که توسط مهندسان داده استفاده میشود تا «کامپیوترها بتوانند از دادهها یاد بگیرند». این تکنیکها منجر به نتایجی میشوند که بدون قوانین سخت برنامهنویسی هم کارشان را انجام میدهند. دیتا ساینس و ماشین لرنینگ این روزها خیلی زیاد شنیده میشوند. این دو کلمه حتی گاهی در کنار هم و به جای هم استفاده میشوند اما با وجود نزدیکی، هممعنا نیستند. در واقع میتوانیم بگوییم که دیتا ساینس شامل ماشین لرنینگ است.
مهارت و ابزار مورد نیاز مهندسی داده چیست؟
Data Visualization یا تصویرسازی داده: ارائه داده به شکلی نموداری یا تصویری که بتوان به راحتی آن را فهمید و تحلیل کرد.
Machine Learning یا ماشین لرنینگ: شاخهای از هوش مصنوعی بر اساس الگوریتمهای ریاضی و اتومیشن.
Deep Learning یا یادگیری عمیق: حوزهای از ماشین لرنینگ که از داده برای مدلسازی مفاهیم پیچیده استفاده میکند.
Pattern Recognition یا شناخت الگو: یک فناوری خاص که در دادهها، الگو پیدا میکند (و اغلب با ماشین لرنینگ همزمان استفاده میشود).
Data Preparation یا آمادهسازی داده: فرایند تبدیل داده خام به فرمت دیگری که راحتتر قابل استفاده است.
Text Analytics یا تحلیل متن: فرایند آزمایش داده غیرساختارمند برای ایجاد بینش و هدف در کسبوکار.
وظایف موقعیت مهندسی داده چیست؟
مفهوم مهندس داده برگرفته از یکی از محبوبترین حوزههای دیجیتال این روزهای دنیاست. حوزهای که شامل ریاضی، تحلیل، علم آمار، و برنامهنویسی میشود. ترکیبی از مهارتهای سخت فنی و ویژگیهای فردی، مهارتهای نرم، تجربه و مهارت آمار برای موفقیت در مهندسی داده لازم است و این موقعیت شغلی هر سال ارزشمندتر و پردرآمدتر میشود. در فهرست «پنجاه شغل برتر آمریکا» از سالهای ۲۰۱۶ تا ۲۰۱۹ مهندسی داده حضور داشت. این فهرست بر اساس معیارهایی مثل رضایت شغلی، تعداد موقعیتهای باز شغلی و درآمد نوشته میشود. البته که بعضی از سازمانها آن را با عنوان «مهندس ماشین لرنینگ» آگهی میکنند. مسئولیتهای پایهای یک مهندس داده شامل تحلیل دیتاستهای بزرگ و دادههای کمی و کیفی هستند. مدلهای یادگیری برای تحلیل داده، استفاده از ابزارهای فنی و دانش لازم برای ساخت مدل هم از جمله مهارتهای مورد نیاز هستند. چه افرادی میتوانند به حوزه دیتا ساینس وارد شوند؟
مهندسان کامپیوتر، برنامهنویسان دیتابیس و نرمافزار، هماهنگکنندگان فنی، تحلیلگران متخصص و librarianها.
چرا دیتا ساینس این همه اهمیت دارد؟
علم مهندسی داده، یک علم کاملا بینرشتهای و گسترده است و البته نیازمند مقدار زیادی اطلاعات و مهارت. به عنوان یک مهندس داده باید همیشه بتوانید «تصویر بزرگ» را ببینید و هدفِ این رشته هم، ایجاد دانش مفید و کاربردی درباره مشتریان است. دانشی که میتوانیم در کمپینها، تبلیغات آفلاین و حتی بیزنسپلنهای کلان استفاده کنیم. حتی در سطوح ابتدایی، تحلیل بیگ دیتا به برندها کمک میکند مشتری را بفهمند و در نهایت نیاز ِ او را بهتر برآورده کنند (و در نتیجه سود مالی و وفاداری مشتری را افزایش بدهند). علاوه بر رسیدن به مخاطبان هدف یا target audience، دیتا ساینس میتواند به کمپانیها کمک کند تصویر برندشان را تحت کنترل دربیاورند. از آنجایی که بیگ دیتا در حال رشد سریع است و ابزارهای نودر حال به وجود آمدناند، مهندسان داده باید کار با ابزارهای نو را هم یاد بگیرند. این مهندسان همچنین به کسبوکارها در نوشتن بیزنس پلن و رسیدن به اهداف دقیقشان کمک میکنند.
یکی از دیگر وظایف یک دیتا ساینتیست در سازمان، ردگیری حفرههای امنیتی و حفظ امنیت است. هرجا که با حجم بزرگ داده مواجه باشیم، احتمال نشت و ناامنی هم بالا میرود.