Phạm Vũ Lửa Hạ
Sáng thứ Năm, bạn ghé sạp báo đầu hẻm, chủ sạp đưa ngay tuần báo Thời Báo Kinh Tế Sài Gòn, và tờ Tuổi Trẻ.
Ghé tiệm phở, bà chủ đon đả hỏi có dùng phở tái nạm thêm nước béo, và
cà phê đen ít đường như thường lệ. Trưa ở văn phòng, tranh thủ giờ nghỉ,
bạn lên mạng tìm mua quà tặng vợ nhân kỷ niệm ngày cưới. Vừa chọn xong
món ưng ý, bạn thấy câu gợi ý “Khách mua món này cũng mua thêm…”. Việc
chính hôm nay của bạn là tổng hợp và phân tích các chủng loại sản phẩm
trong siêu thị để đặt hàng cho kịp đợt kinh doanh cuối mùa xuân. Chiều
trên đường về, bạn đi thay nhớt xe; anh thợ quen khỏi cần hỏi cũng biết
dùng loại gì. Tối đăng nhập vào mạng giải trí để cả nhà coi phim, bạn
thấy hiện ra danh sách giới thiệu phim rất hợp gu của gia đình.
Một ngày trôi qua, bạn gặp lắm tình huống sử dụng dữ liệu về sinh
hoạt và hành vi, ở cả vai trò cung cấp lẫn sử dụng thông tin, đều với
mục đích “vui lòng khách đến, vừa lòng khách đi”. Sạp báo, quán phở và
tiệm sửa xe là điển hình của cách dùng dữ liệu theo kiểu truyền thống
với thông tin hữu hạn, chủ yếu dựa trên quan hệ thân tình để nắm bắt thị
hiếu của khách. Việc phân tích kinh doanh của bạn xưa nay có thể chỉ
dựa trên bảng biểu doanh số và lợi nhuận của từng mặt hàng, nhưng nay có
thể vươn lên một tầm mới nếu kết hợp thêm những hiểu biết như tương tác
của khách hàng trên trang Facebook hay tài khoản Twitter của công ty,
thời điểm truy cập, thời gian dừng lại soi hàng dọ giá, kiểu khuyến mãi
nào được cư dân mạng thích và chia sẻ nhiều, v.v…
Nguồn thông tin vô hạn kiểu này giúp những trang như Amazon đi guốc
trong bụng bạn mà kể vanh vách bạn (nên) thích món nào, hay được khai
thác như mạng coi phim trực tuyến Netflix. Netflix phân tích vô số dữ
liệu tiêu dùng như thể loại nào đang hấp dẫn, khi nào khán giả hết hứng
thú, hay diễn viên nào ăn khách, nhờ đó đoán trúng phóc thị hiếu khán
giả, và thắng lớn với phim bộ đề tài chính trị House of Cards (Canh bạc Hạ nghị viện) với tài tử Kevin Spacey thủ vai chính.
Trào lưu dữ liệu lớn (big data) đình đám trong mấy năm qua, nhất là
nhờ bước tiến vũ bão của thiết bị di động và mạng xã hội, dù công nghệ
khai thác dữ liệu lớn đã có từ đầu thế kỷ 21. Cốt lõi và những hứa hẹn
của trào lưu này được Kenneth Cukier, biên tập viên tạp chí The
Economist, và Viktor Mayer-Schoenberger, giáo sư Đại học Oxford, lột tả
qua nhan đề cuốn sách “Dữ liệu lớn: Cuộc cách mạng sẽ biến đổi cách chúng ta sống, làm việc, và suy nghĩ” in năm 2013.
Có nhiều định nghĩa khác nhau, nhưng có thể hình dung về dữ liệu lớn
qua đặc tính 3V theo nhận xét của hãng phân tích công nghệ Gartner. Đó
là high volume (khối lượng dữ liệu khổng lồ), high velocity (tốc độ cực nhanh thu thập và truyền thông tin đến người sử dụng), và high variety (chủng loại dữ liệu rất đa dạng). Giới quan sát còn đặt thêm vài chữ V nữa như veracity (tính xác thực) và value (giá trị).
Hiện nay dữ liệu được lưu trữ với chi phí ngày càng rẻ, và tăng ở mức
trước nay chưa từng thấy. Cách đây hai thập niên để chứa một gigabyte
dữ liệu (đủ cho khoảng 260 bản nhạc số) cần máy to bằng tủ lạnh. Ngày
nay điện thoại thông minh có thể mang cả chục gigabyte như chơi. Giá
thiết bị lưu trữ giảm mạnh trong cùng thời kỳ này; lưu trữ một gigabyte
xưa tốn hơn ngàn đô nay chỉ còn 5 hoặc 6 xu. Eric Schmidt, chủ tịch
Google, nói rằng trong năm 2010 cứ hai ngày thế giới tạo ra khoảng 5
exabyte (1 exabyte = 1 tỉ gigabyte) dữ liệu, tương đương 250.000 năm
video chất lượng DVD. Một số ước tính khác cho rằng trong năm tới chỉ
cần 10 phút để tạo ra chừng đó dữ liệu.
Cuốn “Dữ liệu lớn …” nêu một ví dụ cho thấy số lượng khổng lồ
hiện nay. Vào thế kỷ thứ ba trước CN, Thư viện Alexandria được xem là
nơi chứa đựng toàn bộ tri thức nhân loại. Ngày nay, thế giới dư sức cung
cấp cho mỗi người đang sống gấp 320 lần lượng thông tin được cho là có
trong bộ sưu tập Alexandria – khoảng 1.200 exabyte. Nếu chép số thông
tin này lên đĩa, và xếp lên nhau thì được năm chồng CD riêng rẽ vươn tới
tận mặt trăng.
Nhưng khối lượng đồ sộ không phải là yếu tố quan trọng nhất. Cái mới
chính là nhờ chi phí lưu trữ cực rẻ và máy tính có tốc độ xử lý ngày
càng nhanh và có thể xác lập mối tương quan giữa nhiều loại dữ liệu, các
doanh nghiệp, tổ chức chính phủ và phi chính phủ hiện đã biết tận dụng
nhiều thuật toán tinh vi để chắt lọc mớ bòng bong, lấy ra thông tin hữu
ích giúp nâng cao hiệu quả hoạt động của mình. Hãng nghiên cứu thị
trường IDC tiên đoán rằng thị trường dữ liệu lớn sẽ đạt giá trị 16,1 tỉ
đô-la trong năm 2014, tăng nhanh gấp 6 lần so với thị trường công nghệ
thông tin nói chung.
Dữ liệu lớn có nhiều ứng dụng đa dạng không chỉ trong kinh doanh, mà
cả trong khoa học, y học và cả chính sách công. Hãng thẻ tín dụng nhanh
chóng phát hiện những kiểu dùng thẻ khác thường, và tự động báo cho chủ
thẻ khi thẻ trả số tiền lớn ở những nơi họ chưa từng tới. Công ty năng
lượng dùng dữ liệu thời tiết xác định chính xác đến từng mét nơi lý
tưởng để đặt tua-bin gió. Kể từ khi thủ đô Stockholm, Thụy Điển, dùng
thuật toán để quản lý giao thông, thời gian lái xe qua trung tâm thành
phố đã giảm một nửa và lượng khí thải giảm 10%. Năm 2010, Google tiên
đoán một đợt bùng phát cúm dựa trên thông tin tìm kiếm của người sử
dụng. Một số thành phố dùng phương pháp “giữ trị an bằng tiên đoán” để
ước tính xác suất xảy ra tội ác ở một số khu vực và điều cảnh sát tuần
tra cho hợp lý; cách làm này na ná như trong phim khoa học giả tưởng Minority Report (năm 2002) với thủ phạm tiềm năng bị bắt vì tội chưa phạm phải.
Theo một báo cáo của Viện Toàn cầu McKinsey tháng 5/2011, dữ liệu lớn
có tiềm năng tạo giá trị rất lớn. Ví dụ, nếu biết tận dụng, một hãng
bán lẻ có thể tăng lợi nhuận hơn 60%, hay ngành y tế Mỹ có thể tạo ra
giá trị hơn 300 triệu đô-la/năm, 2/3 trong đó là nhờ giảm chi phí y tế
khoảng 8%. Các cơ quan nhà nước ở những nền kinh tế tiên tiến của Châu
Âu có thể tiết kiệm hơn 100 triệu euro nhờ cải thiện hiệu quả, đó là
chưa kể dùng dữ liệu lớn để tránh gian lận và sai sót và tăng số thuế
thu được. Còn người sử dụng các dịch vụ dựa vào dữ liệu định vị cá nhân
có thể tận hưởng 600 tỉ đô-la thặng dư tiêu dùng.
Theo Gartner, giá trị của dữ liệu lớn xuất hiện dưới nhiều hình thức, nhưng có thể xếp thành ba loại cơ hội.
Ra quyết định sáng suốt
Wal-Mart muốn giúp khách mua qua mạng tìm được hàng nhanh hơn, nên đã
xây dựng kỹ thuật tìm theo nghĩa và ngữ cảnh, dùng dữ liệu nhấp chuột
từ 45 triệu khách trực tuyến hàng tháng kết hợp với các điểm xếp hạng
sản phẩm và chủng loại lấy từ mạng xã hội. Công cụ tìm kiếm Polaris của
Wal-Mart tăng 10% đến 15% số khách thực sự mua sau khi tìm (tăng doanh
số khoảng 1 tỉ đô-la).
Hiểu ra nhiều điều tiềm ẩn
Climate Corp do các cựu nhân viên Google thành lập, chuyên bảo hiểm
mùa màng cho những vùng không được bảo hiểm đúng mức trên thế giới. Hãng
này liên tục thu thập thông tin thời tiết và số đo về đất từ 500.000
địa điểm, và đến nay nay đã có 30 ngàn tỉ mẩu dữ liệu. Kỹ thuật phân
tích phức tạp tiên đoán các rủi ro thời tiết cho các loại cây trồng cụ
thể ở các địa điểm cụ thể. Hãng đã ăn đứt các hãng bảo hiểm khác không
thể thẩm định rủi ro chi li đến từng địa điểm, giúp nông dân ở Châu Á và
Châu Phi dám mua hạt giống, đầu tư thiết bị và thuê nhân công mà trước
đây họ không thể làm.
Tự động hóa quy trình
Một xưởng bánh của McDonald’s thay thế dụng cụ đo và thẻ màu bằng kỹ
thuật phân tích hình ảnh tốc độ cao để kiểm định hàng ngàn cái bánh mỗi
phút về màu, kích thước và cả mức phân bố hạt mè – ngay tức khắc điều
chỉnh lò nướng và các biện pháp kiểm soát quy trình khác để sản xuất ra
bánh đồng nhất và giảm lãng phí. Một hãng thực phẩm khác dùng kỹ thuật
phân tích hình ảnh tương tự và phân loại từng miếng khoai tây chiên để
tối ưu hóa chất lượng.
–
Ảnh: Trung tâm dữ liệu của Google ở ngoại ô Atlanta, Mỹ. (DPA/ Google)
Bài đăng trên Thời báo Kinh tế Sài Gòn Xuân Giáp Ngọ, 1/2014
© 2014 Phạm Vũ Lửa Hạ
Tinh giảm biên chế: Hãy bắt đầu từ loa phường
-
Năm 2017, lãnh đạo TP Hà Nội (anh Chung con) cho rằng, loa phường đã hoàn
thành sứ mệnh lịch sử, do vậy cần đánh giá, rà soát, nếu thấy không hiệu
quả thì ...
14 giờ trước