Dữ liệu lớn (Big Data) là dữ liệu giao dịch, dữ liệu tương tác và dữ liệu cảm biến có số lượng rất lớn, đa dạng hóa, phải thông qua thu thập, xử lý, phân tích nhanh từ đó mới rút ra giá trị. Tổng lượng dữ liệu số tạo ra và sao chép toàn cầu năm 2011 lên đến 1,8ZB (1ZB = 1021 bit). Cùng với “Thời đại dữ liệu lớn” đến, dữ liệu lớn ngày càng trở thành điểm nóng chú ý của các giới trong xã hội. Cơ quan nghiên cứu như MCKinsey và các doanh nghiệp công nghệ thông tin như IBM, Oracle, EMC đều coi dữ liệu lớn cũng là một trọng điểm của lĩnh vực công nghệ thông tin sau điện toán đám mây, kết nối Internet các đối tượng; và, cho rằng, sự phát triển của dữ liệu lớn sẽ mang lại hiệu quả kinh tế xã hội khả quan. “Chương trình nghiên cứu và phát triển dữ liệu lớn” của Chính phủ Obama Hoa Kỳ năm 2012 càng làm cho Chính phủ các nước trên thế giới chú ý cao độ đến dữ liệu lớn.
Dữ liệu lớn có giá trị quan trọng
Cùng với sự nâng cao trình độ phổ cập và trình độ ứng dụng thông tin hóa, trong quá trình phát triển nghiệp vụ của các ngành nghề như tài chính, giao thông, viễn thông, y tế, bảo hiểm xã hội, hải quan đã tích lũy được dữ liệu lớn. Tổng lượng dữ liệu toàn cầu đang tăng lên theo cấp số nhân, lượng dữ liệu sản sinh ra trong 3 năm qua vượt tổng hoà trước đó. Năm 2011, tổng số lượng dữ liệu được tạo ra và sao chép trên toàn cầu lên đến 1,8ZB; đến năm 2020, dữ liệu lưu trữ trên thiết bị điện tử toàn cầu sẽ tăng đến 35,2ZB.
Dữ liệu lớn đã trở thành tài sản kinh tế quan trọng. Dữ liệu đang trở thành yếu tố sản xuất quan trọng có thể được coi là cùng loại cùng với tài sản vật chất và vốn con người, sử dụng dữ liệu lớn đang trở thành yếu tố then chốt nâng cao sức cạnh tranh, sức sản xuất, năng lực đổi mới và tạo ra giá trị thặng dư của người tiêu dùng, đặc biệt là các ngành nghề như viễn thông, tài chính đã đạt đến giai đoạn phát triển “dữ liệu chính là bản thân nghiệp vụ”. Trong tình hình này, khách hàng doanh nghiệp bức thiết phải sử dụng sự hỗ trợ của chiến lược dữ liệu lớn để tìm hiểu một cách toàn diện tình hình hoạt động vận hành và kinh doanh và môi trường hoạt động vận hành và kinh doanh, để thu được nhiều giá trị kinh tế hơn. Đối với quốc gia, dữ liệu có quy mô, sức sống và năng lực vận dụng giải thích sẽ trở thành bộ phận cấu thành quan trọng của sức mạnh tổng hợp quốc gia, việc chiếm hữu và kiểm soát đối với dữ liệu sẽ trở thành một tài sản cốt lõi của quốc gia ngoài sức mạnh trên mặt đất, sức mạnh trên biển, sức mạnh trên không. Đối với doanh nghiệp, dữ liệu đang trở thành một trong các sức cạnh tranh cốt lõi, là phương tiện quan trọng trong chỉ số thông minh IQ của doanh nghiệp. Sự vận dụng dữ liệu lớn có thể giúp doanh nghiệp tiến hành tối ưu hoá quá trình nghiệp vụ, sau đó hỗ trợ cho việc ra quyết sách chiến lược. Ngành công nghiệp Internet đã đầu tiên cảm nhận sự thay đổi sâu sắc do dữ liệu lớn mang lại.
Sau khoa học thực nghiệm, khoa học lý luận, khoa học máy tính, khoa học số loại tập trung nhiều dữ liệu lấy dữ liệu lớn làm đại diện sẽ trở thành hòn đá tảng của cuộc cách mạng công nghệ mới lần thứ nhất. Sự phát triển của công nghệ mới như kết nối Internet các đối tượng, điện toán đám mây, Internet di động làm cho điện thoại di động, máy tính bảng, PC và lan toả khắp ngõ ngách toàn cầu các cảm biến trở thành nguồn gốc và phương tiện là ngành nghề đầu tiên nhất cảm nhận được sự thay đổi sâu sắc do dữ liệu lớn mang lại. Tài nguyên dữ liệu khổng lồ này có giá trị sử dụng to lớn.
1) Thúc đẩy phát triển đổi mới công nghiệp thông tin
Sự phát triển nhanh chóng của mạng kết nối Internet các đối tượng, mạng Internet di động, làm cho các loại nguồn dữ liệu mới không ngừng xuất hiện, dữ liệu GPS, dữ liệu di động, dữ liệu thiết bị cảm biến đang tiếp tục sản sinh với số lượng lớn, bức thiết phải vận dụng thủ pháp dữ liệu lớn tiến hành phân tích và xử lý để tách ra các thông tin hữu hiệu trong đó. Đồng thời, việc ứng dụng dữ liệu lớn cũng mang lại cho điện toán đám mây con đường hạ cánh, làm cho việc đổi mới nghiệp vụ và đổi mới dịch vụ dựa trên điện toán đám mây trở thành hiện thực. Còn dữ liệu lớn lấy lĩnh vực nói trên là xuất phát điểm sẽ thúc đẩy sự đổi mới và phát triển của toàn bộ ngành công nghiệp thông tin.
2) Thúc đẩy các lĩnh vực trong các ngành công nghiệp thực hiện lợi ích kinh tế to lớn
ứng dụng rộng rãi dữ liệu lớn trong các lĩnh vực như dịch vụ chữa bệnh, ngành bán lẻ, ngành công nghiệp chế tạo và dịch vụ thông tin cá nhân, có thể mang lại cơ hội kinh doanh mới, tạo ra giá trị kinh tế to lớn. Lấy đánh giá công nghiệp phương Tây của McKinsey làm ví dụ, dữ liệu lớn sẽ mang lại giá trị 300 tỉ USD cho ngành dịch vụ chữa bệnh Hoa Kỳ, mang lại giá trị 350 tỉ Euro cho chi trả quản lý của các bộ phận công cộng châu Âu; có thể làm cho lợi nhuận thuần của ngành bán lẻ Hoa Kỳ tăng đến 60%, làm cho chi phí phát triển, lắp ráp sản phẩm của ngành công nghiệp chế tạo giảm 50%.
3) Thúc đẩy tăng cường trình độ quản lý xã hội
ứng dụng dữ liệu lớn trong các lĩnh vực của Chính phủ và dịch vụ công cộng, có thể tạo ra giá trị xã hội to lớn. Cục quản lý đại dương và khí quyển quốc gia Hoa Kỳ (National Oceanic and Atmospheric Administration-NOAA) lấy thông tin về biển toàn cầu vượt quá 20PB làm chỗ dựa, chỉ 9 phút sau khi trận động đất lớn xảy ra tại Nhật Bản, đã phát đi cảnh báo sóng thần chi tiết; sau đó, lại thông qua các dữ liệu theo thời gian thực thu được qua thiết bị cảm biến trên biển tiến hành mô phỏng máy tính, nhanh chóng tạo ra mô hình ảnh hưởng của sóng thần và ra thông báo.
4) Thúc đẩy nâng cao năng lực bảo đảm an ninh
ứng dụng dữ liệu lớn trong các lĩnh vực như quốc phòng, chống khủng bố, an ninh sẽ phải thu thập các loại thông tin đến đối với các bộ phận và tiến hành tư động phân loại, chỉnh lý, phân tích, giải quyết có hiệu quả các vấn đề như tình báo, giám sát, hệ thống trinh sát chưa đầy đủ, nâng cao năng lực bảo đảm an ninh quốc gia. Ví dụ, Hoa Kỳ lên kế hoạch thực hiện dự án kiểm tra không bình thường nhiều cấp độ (multiscale), mục đích chính là tiến hành phân tích giám sát các hành động không bình thường ở nhiều cấp độ khác nhau, lớn thì liên quan đến quốc gia, trung bình thì liên quan đến các tổ chức khủng bố, nhỏ thì liên quan đến các cá nhân phần tử khủng bố, để nâng cao tốc độ và độ chính xác phát hiện đối với các loại đe doạ an ninh.
Dữ liệu lớn mang lại những thách thức và cơ hội mới cho an ninh thông tin. 1) Dữ liệu lớn dễ trở thành mục tiêu tấn công mạng, do đó tạo thành rò rỉ thông tin riêng tư của khách hàng. 2) Dữ liệu lớn đặt ra yêu cầu cao hơn đối với phương thức lưu trữ và biện pháp an ninh thông tin. 3) Dữ liệu lớn có phương tiện có thể trở thành media tấn công bền bỉ và cao cấp, trở thành thủ pháp tấn công của hacker. 4) Dữ liệu lớn đã cung cấp khả năng mới cho phân tích an ninh, giúp cho việc phát hiện những hành vi không bình thường đối với phân tích dữ liệu lớn, ứng phó với đe doạ an ninh.