Tại sao Kỹ sư dữ liệu không phải là nhà khoa học dữ liệu?
Theo chuyên gia tư vấn năng lực ngành dữ liệu – Rassul Fazelat: Tất cả chúng ta đã được nghe về Dữ liệu lớn và Nhà khoa học dữ liệu, v.v. Tôi muốn viết bài đăng này để giúp làm rõ một số điều đưa ra rất nhiều về sự khác biệt chính giữa Nhà khoa học dữ liệu và Kỹ sư dữ liệu. Tôi nghĩ rằng có một sự hiểu biết về những khác biệt chính giữa các vai trò khác biệt này sẽ giúp các bạn có một cái nhìn rõ ràng hơn về ngành dữ liệu.
Cơn sốt dữ liệu lớn đã bùng nổ khi Tạp chí Harvard Business Review xuất hiện với trang bìa (ở trên) để khiến mọi người chà đạp lẫn nhau để trở thành Nhà khoa học dữ liệu. Nếu sự thật được biết đến, chúng ta đã có các nhà khoa học dữ liệu bằng cách này hay cách khác, kể từ thời Al-Kindi, John Graunt và Thomas Bayes.
Vì vậy, một nhà khoa học dữ liệu hiện đại thực sự là như thế nào? hoặc nói chính xác hơn ai có thể có được danh xưng này, theo đúng ý nghĩa thực sự của nó? Câu trả lời thực sự là (3) phần:
1) Nền tảng phân tích – Bắt đầu với bất kỳ ai có nền tảng phân tích thống kê hiểu rõ về các yếu tố sau: độ lệch chuẩn, lý thuyết Bayes, hồi quy hậu cần, hồi quy Lasso & Ridge, hồi quy logistic đa danh nghĩa, K-mean, chéo xác nhận, nhiều lần cắt bỏ, vv; sẽ giúp họ có được 70% để trở thành một nhà khoa học dữ liệu. Phần lớn các chương trình giảng dạy về toán học, vật lý, thống kê, hóa học, kỹ thuật và các ngành khoa học phân tích khác có thể giúp xây dựng đường cơ sở.
2) Kinh nghiệm với các công cụ – Phần này là phần khó khăn vì nó không chỉ liên quan đến việc có kinh nghiệm để áp dụng một số kỹ thuật này mà còn biết cách thực hiện các nhiệm vụ này một cách hiệu quả. Nhiều hiệu quả được tạo ra bằng cách sử dụng nhiều công cụ thống kê ngoài kia như R, SAS, SPSS, Matlab, VBA. Các khung và ngôn ngữ mã hóa có thể giúp nhiều hơn như Python, Java, C, C ++, Perl, Hadoop, Hive và Pig.
3) Phân tích & Trình bày – Đây là phần “kỹ năng mềm” của vai trò trong đó có thể rút ra kết luận từ dữ liệu và sau đó có thể trình bày chúng cho các nhà lãnh đạo doanh nghiệp với những hiểu biết sâu sắc có thể hành động.
Bất cứ ai có nền tảng phân tích, kỹ năng phân tích / thuyết trình và kinh nghiệm với các công cụ được liệt kê ở trên đều có thể đưa ra lập luận mạnh mẽ rằng họ là một nhà khoa học dữ liệu. Khi ngành công nghiệp dữ liệu lớn đang trưởng thành, việc tiếp xúc nhiều hơn với các công cụ dữ liệu lớn sẽ tạo ra một cuộc tranh luận mạnh mẽ hơn so với ai đó bị giới hạn chỉ sử dụng R và SAS.
Vì vậy, với tất cả các cuộc nói chuyện về dữ liệu lớn này, “kỹ sư dữ liệu lớn” là cái quái gì mà tôi vẫn nghe thấy?
Việc Hadoop là một khung công tác dựa trên Java là điểm khởi đầu tốt để hiểu các thuộc tính kỹ thuật chính mà người chơi cụ thể này cần phải có trong nhóm dữ liệu lớn. Điều đó đã được nói, một kỹ sư dữ liệu lớn về cơ bản là một nhà phát triển Hadoop đã tăng thứ hạng theo thời gian và kinh nghiệm. Hầu hết những người này ban đầu khởi nghiệp là những nhà phát triển Java đã trở nên khá thành thạo và sau đó chuyển sang Hadoop trong khi những người khác đi theo con đường phát triển di động vào Android, một môn học dựa trên Java khác.
Những người tiếp tục con đường phát triển Hadoop đã thấy mình làm việc trong môi trường sản xuất trong một số năm, ngay bây giờ, 3-4 năm là con số kỳ diệu, có thể tạo ra một trường hợp mạnh mẽ để trở thành một kỹ sư dữ liệu lớn. Các nhà phát triển làm việc trong môi trường đám mây với Hadoop cũng rất tuyệt, nhưng một số kinh nghiệm tại cơ sở rất được khuyến khích và sẽ giúp thiết lập sự hiểu biết tốt về các vấn đề cơ bản của HDFS. Môi trường đám mây cũng có xu hướng khá “sạch” khi môi trường sản xuất Doanh nghiệp sẽ gặp một số trở ngại kỹ thuật do nhiều hệ thống được đan xen trong nhiều năm qua. Những kỹ năng giải quyết vấn đề “thực tế” này được hầu hết các nhà quản lý tuyển dụng trong Doanh nghiệp đánh giá cao.
Vì vậy, những gì người khác cần phải hiểu ngoài các đặc điểm hồ sơ chung này?
- Lập trình / Khung dữ liệu lớn (Hadoop, Spark (nâng cao), Storm (nâng cao), Kafka (nâng cao), Hive, PIG, Mahout, Zookeeper
- Mã hóa nền tảng (Java, C, C ++, Python)
- Hoàn thiện hệ thống
- Quản trị DB, Hbase, MongoDB, Cassandra (cơ sở dữ liệu NoQuery)
- Lưu trữ dữ liệu
Tôi hy vọng bài đăng này đã giúp giải thích ở mức độ cao sự khác biệt lớn giữa các nhà khoa học dữ liệu và kỹ sư dữ liệu. Nói tóm lại, các nhà khoa học dữ liệu là các pháp sư thống kê hơn, tận dụng các công nghệ dữ liệu lớn để phân tích các tập dữ liệu lớn, trình bày và tạo ra những hiểu biết có thể hành động. Mặt khác, các kỹ sư dữ liệu sử dụng các công nghệ dữ liệu lớn và thiên về mã hóa / xây dựng môi trường dữ liệu lớn.
Nếu bạn muốn mở rộng kiến thức làm việc về dữ liệu lớn của mình, hãy tập hợp các giải pháp cho khách hàng doanh nghiệp, sử dụng các công nghệ mới nhất trong dữ liệu lớn.
Trở thành sinh viên trường ĐẠI HỌC CÔNG LẬP QUỐC TẾ để có những trải nghiệm học tập tuyệt vời!
Viện Nghiên cứu và Đào tạo Việt – Anh (VNUK), Đại học Đà Nẵng tự hào là cơ sở giáo dục ĐẠI HỌC CÔNG LẬP QUỐC TẾ được thành lập theo thỏa thuận hợp tác giữa hai chính phủ Việt Nam và Vương quốc Anh.
VNUK (mã trường: DDV) đang xét tuyển các ngành đào tạo như sau:
- Quản trị và Kinh doanh quốc tế (mã ngành: 7340124)
- Khoa học và Kỹ thuật máy tính (mã ngành: 7480204)
- Khoa học Y sinh (mã ngành: 7420204)
- Khoa học Dữ liệu (mã ngành 7480205DT)
Trong đó, ngành Khoa học Dữ liệu là một lĩnh vực rộng mở, mang đến nhiều phát triển trong tương lai. Chương trình tập trung vào tầm nhìn và bối cảnh toàn cầu, giúp sinh viên hội nhập nhanh chóng với các môi trường đa văn hóa, nắm được các kiến thức công nghệ thông tin, dữ liệu mới nhất. Bên cạnh kiến thức nền hiện đại và thường xuyên cập nhật, sinh viên được tạo cơ hội để tham gia giải quyết những vấn đề thực tiễn trong suốt quá trình học.
Sinh viên ngành Khoa học Dữ liệu không chỉ được giảng dạy bởi nhiều chuyên gia giàu kinh nghiệm đến từ các doanh nghiệp mà còn được tham gia nhiều chương trình học tập thực tế như tham quan công ty, các dự án, cuộc thi công nghệ, thực tập ngay từ năm nhất…
————————————————————————————————————————–
Mọi thắc mắc xin vui lòng liên hệ theo địa chỉ:
Viện Nghiên Cứu và Đào Tạo Việt – Anh
158A Lê Lợi, Q.Hải Châu, TP. Đà Nẵng
Hotline: 0905 55 66 54
Số điện thoại: 0236 37 38 399