Dữ liệu lớn (digiNxt – Big Data)

Giới thiệu chương trình:

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn, với quy mô vượt quá khả năng nắm bắt và xử lý của các công cụ phần mềm truyền thống trong khoảng thời gian chấp nhận. Big Data còn là tập hợp các kỹ thuật và công nghệ đòi hỏi cách tích hợp mới nhằm khám phá những giá trị tiềm ẩn to lớn từ những tập hợp dữ liệu lớn, đa dạng, phức tạp. Năm 2012, Gartner định nghĩa “Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.

Mục tiêu đào tạo:

Mục tiêu của chương trình học nhằm giúp sinh viên làm quen với những kiến thức và kỹ năng cần thiết để trở thành những chuyên viên Dữ liệu lớn có tay nghề và khả năng tìm việc. Điều quan trọng cần có cho một chuyên viên Dữ liệu lớn là kiến thức lập trình Java vì Hadoop & Hive được viết bằng Java.

Chương trình bao gồm các môn học sau:

Apache Hadoop là khung phần mềm nguồn mở viết bằng ngôn ngữ Java để lưu trữ phân tán và xử lý phân tán các tập dữ liệu rất lớn trên những cụm máy tính được xây dựng từ phần cứng thông dụng. Cốt lõi của Hadoop bao gồm phần lưu trữ (Hệ thống tập tin phân tán Hadoop – HDFS) và phần xử lý (MapReduce). Hadoop chia các tập tin thành những khối lớn và phân phối chúng đến các nút xử lý trong cụm máy tính. Để xử lý dữ liệu, Hadoop MapReduce chuyển mã lệnh được đóng gói đến các nút để xử lý song song, dựa trên dữ liệu mỗi nút cần xử lý.

ZooKeeper là dự án nguồn mở của Apache cung cấp một hạ tầng tập trung và các dịch vụ cho phép đồng bộ hóa giữa cụm máy tính.

HBase là cơ sở dữ liệu phân tán, phi-quan hệ, nguồn mở viết bằng Java. Nó chạy trên Hệ thống tập tin phân tán Hadoop – HDFS để cung cấp dữ liệu như một Bảng lớn cho Hadoop.

Hive là một tiêu chuẩn thực sự để truy vấn SQL tương tác trên dữ liệu lớn trong Hadoop. Nó dễ dàng tích hợp với các công nghệ trung tâm dữ liệu khác sử dụng một giao tiếp JDBC quen thuộc.

Storm là hệ thống tính toán thời gian thực phân tán để xử lý những khối lượng dữ liệu lớn tốc độ cao. Storm có khả năng xử lý cực kỳ nhanh, trên một triệu bản ghi trên giây trên mỗi nút trong một cụm máy tính vừa phải.

Redis là máy chủ cấu trúc dữ liệu nguồn mở, liên mạng và là cơ sở dữ liệu khóa-giá trị phổ biến nhất.

Sqoop là công cụ dữ liệu lớn có khả năng rút trích dữ liệu từ các kho dữ liệu phi Hadoop, chuyển đổi dữ liệu thành định dạng Hadoop có thể xử lý và sau đó tải dữ liệu vào trong hệ thống tập tin HDFS.

Thời lượng: 280 giờ

Yêu cầu:

  • Đọc & hiểu tiếng Anh

Điều kiện đầu vào:

Sinh viên cần có kiến thức sau:

  • Quen thuộc môi trường làm việc Windows.
  • Tin học văn phòng MS Office là một lợi thế.

Cơ hội nghề nghiệp:

  • Chuyên viên phân tích Dữ liệu lớn (Big Data Analyst)

Đầu ra:

  • Chuyên viên phân tích Dữ liệu lớn (Big Data Analyst)

Bằng cấp: Chuyên viên dữ liệu lớn (digiNxt – Big Data)

 

ĐĂNG KÝ HỌC

Fields marked with an * are required

Vui lòng nhập đầy đủ, chính xác các thông tin và nhấn nút ĐĂNG KÝ. Nhân viên tư vấn sẽ liên lạc với bạn trong thời gian sớm nhất.