Khoa học Dữ liệu (Data Science)
Giới thiệu về mảng chuyên môn Khoa học Dữ liệu - CLB RTIC
Khoa học Dữ liệu (Data Science)
Trang chuyên môn này hoạt động dưới sự định hướng của Ban Học Thuật và sự cố vấn của các giảng viên bộ môn Trí tuệ Nhân tạo, đảm bảo lộ trình phát triển của thành viên luôn bám sát kiến thức hàn lâm và xu hướng của ngành.
1. Mục tiêu của Mảng Khoa học Dữ liệu
-
Xây dựng nền tảng kiến thức vững chắc:
Cung cấp kiến thức từ cơ bản đến nâng cao về vòng đời của một dự án Data Science:
Thu thập & làm sạch dữ liệu (Data Collection & Cleaning),
Phân tích khám phá dữ liệu (Exploratory Data Analysis),
Xây dựng & đánh giá mô hình (Modeling & Evaluation),
Trực quan hóa kết quả (Visualization). -
Thúc đẩy năng lực thực hành và nghiên cứu:
Tạo môi trường áp dụng các thuật toán Machine Learning, Deep Learning vào bộ dữ liệu thực tế và khuyến khích tham gia nghiên cứu khoa học. -
Kết nối cộng đồng đam mê Khoa học Dữ liệu:
Tổ chức workshop, seminar, datathon để thành viên giao lưu, học hỏi và kết nối với chuyên gia trong ngành. -
Ứng dụng vào dự án thực tế của CLB:
Cung cấp giải pháp phân tích dữ liệu và xây dựng mô hình AI cho các sản phẩm thuộc Tổ Nghiên Cứu & Phát Triển (như dự án về Công nghệ Giáo dục, Ứng dụng cộng đồng).
2. Lộ trình học tập và Hoạt động
a. Giai đoạn nền tảng (Sinh viên năm 1-2)
-
Chuỗi Workshop "Data Science 101":
- Giới thiệu tổng quan về Data Science, khái niệm cốt lõi.
- Làm quen với thư viện Python: NumPy, Pandas, Matplotlib, Seaborn.
-
Hoạt động "Problem Solving with Data":
- Thành viên phân tích, trực quan hóa dữ liệu nhỏ như Titanic, Iris, House Prices.
- Rèn luyện kỹ năng phân tích, đặt câu hỏi và kể chuyện bằng dữ liệu.
b. Giai đoạn chuyên sâu (Sinh viên năm 2-4)
-
Sinh hoạt học thuật - "Paper Review":
- Đọc, tóm tắt, thuyết trình các bài báo tại NeurIPS, ICML, KDD.
- Cập nhật kiến thức mới và rèn luyện tư duy phản biện.
-
Thử thách "Kaggle & Real-world Projects":
- Tham gia cuộc thi Kaggle hoặc giải quyết bài toán dữ liệu thực tế.
- Trải nghiệm Feature Engineering, Model Tuning và teamwork.
-
Nghiên cứu khoa học - "Data-driven Research":
- Thực hiện dự án nghiên cứu từ xác định vấn đề → thu thập dữ liệu → xây dựng mô hình Machine Learning/Deep Learning → viết bài báo khoa học.
3. Tài nguyên và Công cụ
- Ngôn ngữ: Python (chính), R (phụ).
- Thư viện cốt lõi:
- Xử lý dữ liệu: Pandas, NumPy
- Trực quan hóa: Matplotlib, Seaborn, Plotly
- Machine Learning: Scikit-learn
- Deep Learning: TensorFlow, Keras, PyTorch
- Nền tảng & Môi trường: Jupyter Notebook, Google Colab, Kaggle, GitHub.
- Nguồn học liệu: Coursera, edX, fast.ai, Towards Data Science, Medium...
Note:
CLB sẽ liên tục tổng hợp khóa học, sách và blog chuyên ngành uy tín để thành viên có lộ trình tự học rõ ràng và bài bản.
4. Cơ cấu và Liên hệ
Mảng Khoa học Dữ liệu là một phần chuyên môn trọng tâm thuộc Ban Học Thuật của CLB RTIC.
- Điều phối: Trưởng ban Học Thuật Trần Minh Khánh (23133035)
- Cố vấn: ThS. Lê Minh Tân
- Liên hệ đăng ký: Thành viên có đam mê và mong muốn tham gia sâu có thể đăng ký nguyện vọng với Ban Học Thuật để được phân vào các nhóm học tập và dự án chuyên sâu.
Thông điệp:
Hy vọng nội dung này sẽ giúp trang chuyên môn về Khoa học Dữ liệu của CLB RTIC trở nên phong phú, hấp dẫn và đúng với định hướng phát triển của CLB!