Đỉnh NGUYỄN

life's a journey not a destination

Big Data #11 – Vai trò của điện toán đám mây trong Big Data

Leave a comment


Cloud là gì?

Cloud là từ thông dụng nhất trong vài năm trở lại đây. Mọi người đều biết về cloud, nhưng trong bài nay chúng ta sẽ thảo luận cloud trong ngữ cảnh big data. Cloud computing là 1 phương pháp cung cấp các tài nguyên máy tính được chia sẽ cho các ứng dụng yêu cầu tài nguyên linh động.  Các tài nguyên này gồm ứng dụng, tính toán, lưu trữ, mạng, phát triển, và các nền tảng triển khai khác. Nền tảng của cloud computing là nó chia sẽ tài nguyên và phân phối đến người dùng cuối như 1 dịch vụ.

Các ví dụ của cloud computing và big data là Google và Amazon.com. Cả hai đều cung cấp big data với sự trợ giúp của cloud.

Có 2 mô hình triển khai cloud khác nhau: 1) Public Cloud và 2) Private Cloud.

Public Cloud

Public Cloud là hạ tầệu ng cloud được xây dựng bởi các nhà cung cấp thương mại (Amazon, Rackspace,…) tạo 1 trung tâm dữ liệu khả năng mở rộng cao giúp ẩn đi các hạ tầng phức tạp với khách hàng và cung cấp các dịch vụ khác nhau.

Private Cloud

Private Cloud là hạ tầng cloud được xây dựng bởi 1 tổ chức, tự họ quản lý khả năng mở rộng của trung tâm dữ liệu nội bộ.

Đây là sự so sánh nhanh giữa Public Cloud và Private Cloud từ Wikipedia:

Public Cloud

Private Cloud

Initial cost

Typically zero

Typically high

Running cost

Unpredictable

Unpredictable

Customization

Impossible

Possible

Privacy

No (Host has access to the data

Yes

Single sign-on

Impossible

Possible

Scaling up

Easy while within defined limits

Laborious but no limits

Hybrid Cloud

Hybrid Cloud là hạ tầng cloud được xây dựng với thành phần gồm 2 hoặc nhiều hơn các clouds như public và private cloud. Hybrid cloud mang đến điều tốt nhất của nhiều mô hình triển khai cloud.

Cloud và big data – Các đặc tính phổ biến

Có nhiều đặc tính của Cloud Architecture và Cloud Computing mà cũng là bản cất quan trọng cho big data.

Danh sách các đặc tính của cloud computing mà quan trọng trong big data:

  • Scalability
  • Elasticity
  • Ad-hoc Resource Pooling
  • Low Cost to Setup Infastructure
  • Pay on Use or Pay as you Go
  • Highly Availability

Các nhà cung cấp dẫn đầu về cloud cho big data

Amazon

Amazon được cho là nhà cung cấp Infrastructure as a Service (IaaS) phổ biến nhất. Lịch sử của việc này bắt đầu khá thú vị. Họ bắt đầu với 1 đống hạ tầng hỗ trợ kinh doan của riêng họ. Dần dần họ thầy nguồn lực của mình không được tận dụng trong hầu hết thời gian. Họ quyết định tối đa hóa nguồn tài nguyên đang có và vì thế họ đưa ra dịch vụ Amazon Elastic Compute Cloud (Amazon EC2) năm 2006. Sản phẩm của họ đã phát triển rất nhiều trong thời gian gần đây và bây giờ nó đã trở thành một trong những ngành kinh doanh chính bên cạnh bán lẽ.

Amazon cũng cung cấp dịch vụ big data trong Amazon Web Services.

Đây là danh sách các dịch vụ trong Amazon Web Services:

  • Amazon Elastic MapReduce – xử lý khối lượng dữ liệu rất lớn.
  • Amazon DynammoDB – dịch vụ CSDL NoSQL.
  • Amazon Simple Storage Services (S3) – dịch vụ lưu trữ dữ liệu trực tuyến
  • Amazon High Performance Computing – cung cấp cụm tính toán hiệu suất cao
  • Amazon RedShift – dịch vụ kho dữ liệu khả năng mở rộng hàng petabyte

Google

Mặc dù Google được biết đến với Search Engine, chung ta cũng biết hãng có thể cung cấp nhiều hơn thế.

  • Google Compute Engine – cung cấp tính toán bảo mật, linh động từ trung tâm dữ liệu sử dụng hiệu quả năng lượng.
  • Google Big Query – cho phép các truy vấn giống SQL chạy với bộ dữ liệu rất lớn.
  • Google Prediction API – công cụ máy học dựa trên cloud

Các nhà cung cấp khác

Bên cạnh Amazon và Google, chúng ta cũng có nhiều nhà cung cấp khác về big data. Microsoft cũng tham gia big data với Microsoft Azure. Ngoài ra, Rackspace và NASA cùng nhau bắt đầu OpenStack. Mục tiêu của OpenStack là cung cấp cloud dễ mở rộng có thể chạy trên bất kỳ phần cứng nào.

Điều cần theo dõi

Các giải pháp dựa trên cloud cung cấp 1 tích hợp tuyệt với với câu chuyện big data cũng như rất kinh tế để thực hiện. Tuy nhiên, có một số thứ nên xem xét khi triển khai big data trên các giải pháp cloud.

  • Data Integrity
  • Initial Cost
  • Recurring Cost
  • Performance
  • Data Access Security
  • Location
  • Compliance

Mỗi công ty đều có hướng tiếp cận big data khác nhau và có các quy tắc và luật lệ khác nhau. Dựa trên các nhân tố khác nhau, có thể cài đặt giải pháp big data tùy biến của riêng họ trên 1 cloud.

(Theo http://blog.SQLAuthority.com)

Advertisements

Author: dinhnn

Senior software developer, a technical leader. You can be reached at via email to dinhnguyenngoc@gmail.com, via my blog at dinhnguyenngoc.wordpress.com, and on Twitter @dinhnguyenngoc.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s