-
Thông tin E-mail
service@h3c.com
- Điện thoại
-
Địa chỉ
C?ng ty H3C, 466 Changhe Road, Qu?n Tan Giang, Hàng Chau
Công ty TNHH Công nghệ Tân Hoa
service@h3c.com
C?ng ty H3C, 466 Changhe Road, Qu?n Tan Giang, Hàng Chau
Để giúp khách hàng từ mọi tầng lớp giải quyết những thách thức do thời đại dữ liệu lớn đặt ra, H3C đã xây dựng một bộ nền tảng xử lý dữ liệu lớn hiệu suất cao, sử dụng khung tính toán hội tụ cơ sở dữ liệu phân tán Hadoop và MPP để cung cấp cho người dùng một giải pháp nền tảng dữ liệu lớn hoàn chỉnh, bao gồm đầy đủ các chức năng như chuyển đổi thu thập dữ liệu, tính toán lưu trữ, khai thác phân tích, trao đổi chia sẻ, trình bày BI và quản lý hoạt động và bảo trì, giúp người dùng xây dựng hệ thống xử lý dữ liệu khổng lồ, khám phá giá trị nội tại của dữ liệu và nắm bắt cơ hội thị trường mới.

SeaSQL MPP hỗ trợ triển khai máy vật lý cục bộ, cũng hỗ trợ triển khai trên đám mây riêng, nguồn dữ liệu có thể là lưu trữ cục bộ, HDFS、 Lưu trữ đám mây hoặc các cơ sở dữ liệu quan hệ khác như Oracle, MySQL, v.v., được tích hợp vào cơ sở dữ liệu SeaSQL MPP thông qua các công cụ ETL hoặc Kafka. Cơ sở dữ liệu phân tán SeaSQL MPP dựa trên kiến trúc song song quy mô lớn không chia sẻ với khả năng xử lý dữ liệu cấp petabyte và hạt nhân dựa trên hạt nhân PostgreSQL được tối ưu hóa đáng kể để cung cấp trình tối ưu hóa truy vấn mạnh mẽ với khả năng tương thích hoàn hảo với SQL. Ở tầng giao diện, SeaSQL MPP cung cấp giao diện cho các ngôn ngữ lập trình phổ biến Python/R/Java/Perl/C ngoài giao diện JDBC/ODBC tiêu chuẩn, cũng như giao diện cho các thư viện machine learning MADlib, truy xuất toàn văn bản và PostGIS, cung cấp các cuộc gọi tầng.

SeaSQL MPP là một kiến trúc phân tán với khả năng mở rộng theo chiều ngang mạnh mẽ, cho phép kết nối hàng ngàn nút và hỗ trợ hàng ngàn CPU. Khả năng xử lý và tính toán dữ liệu mạnh mẽ của nó phù hợp với các tình huống sau:
• Thích hợp cho các ứng dụng hướng phân tích, chẳng hạn như xây dựng ODS/EDW cấp doanh nghiệp, chợ dữ liệu, v.v.
• Thích hợp cho các ứng dụng cần xử lý lượng dữ liệu khổng lồ, chẳng hạn như kho dữ liệu, trí tuệ kinh doanh, v.v.
• Thích hợp để phân tích và khai thác dữ liệu cho dữ liệu ngoại tuyến, chẳng hạn như phân tích hành vi của khách hàng, chân dung người, mô hình dự đoán hành vi, v.v.
H3C SeaSQL MPP là một cơ sở dữ liệu phân tán dựa trên PostgreSQL, sử dụng kiến trúc Shared-Nothing, host, hệ điều hành, bộ nhớ và lưu trữ đều tự kiểm soát và không chia sẻ. Các tính năng chính của cơ sở dữ liệu H3C SeaSQL MPP như sau:
· Kiến trúc xử lý song song quy mô lớn.
· Hỗ trợ cả lưu hàng và lưu cột. Mỗi bảng hoặc phân vùng bảng có thể được quản trị viên xác định cách lưu trữ và nén riêng biệt, tùy thuộc vào nhu cầu của ứng dụng.
· Hỗ trợ nhiều phương pháp nén, bao gồm Zlib, RLE, v.v.
· Hỗ trợ bảng phân vùng đa cấp, phân vùng hỗ trợ nhiều chế độ, bao gồm phạm vi, danh sách, v.v.
· Hỗ trợ các chỉ mục như B-tree, bitmap và GiST.
Cơ chế chứng nhận hỗ trợ nhiều cách, bao gồm LDAP và Kerberos.
Hỗ trợ ngôn ngữ mở rộng: SeaSQL MPP hỗ trợ thực hiện các chức năng tùy chỉnh người dùng bằng nhiều ngôn ngữ phổ biến, bao gồm Python, R, Java, Perl, C/C++và hơn thế nữa.
Xử lý thông tin địa lý: Với tích hợp PostGIS, SeaSQL MPP hỗ trợ lưu trữ và phân tích thông tin địa lý.
Thư viện thuật toán khai thác dữ liệu tích hợp: Với thư viện thuật toán MADlib (nay là Dự án ươm tạo Apache), hàng chục thuật toán phân tích và khai thác dữ liệu phổ biến có thể được tích hợp vào cơ sở dữ liệu SeaSQL MPP, bao gồm hồi quy logic, cây quyết định, rừng ngẫu nhiên, v.v. Không cần phải viết bất kỳ mã thuật toán nào, tất cả các thuật toán trong đó có thể được sử dụng thông qua SQL.
Truy xuất văn bản: SeaSQL MPP có thể hỗ trợ chức năng truy xuất văn bản đầy đủ hiệu quả và linh hoạt. Cùng với MADlib, phân tích văn bản song song và khai thác có thể được thực hiện.
· Tải hiệu suất cao, sử dụng công nghệ MPP, cung cấp hiệu suất tải cho khối lượng dữ liệu cấp Petabyte.
· Tối ưu hóa truy vấn luồng công việc dữ liệu lớn.
· Lưu trữ và thực thi dữ liệu đa hình.
Khả năng học máy nâng cao dựa trên Apache MADlib.
· Hỗ trợ SQL 92 ANSI/ISO, SQL 99 ANSI/ISO, SQL 2003 ANSI/ISO, SQL 2006 ANSI/ISO tiêu chuẩn, hỗ trợ C API, ODBC, JDBC và các thông số kỹ thuật giao diện quốc tế khác, hỗ trợ DDL, DML, DCL cú pháp, hỗ trợ các loại dữ liệu cơ bản, ràng buộc tính toàn vẹn cơ bản, quản lý bảng cơ bản, điều kiện tìm kiếm, kết nối bảng, truy vấn con, chèn, sửa đổi, xóa, kiểm soát giao dịch.
SeaSQL MPP hỗ trợ cài đặt triển khai nền tảng đám mây CloudOS5.0, có khả năng hỗ trợ triển khai đám mây. Bạn có thể thống nhất kiểm soát tất cả tài nguyên và quản lý điều hành thống nhất thông qua giao diện CloudOS, bạn có thể linh hoạt quản lý phân phối tài nguyên, nâng cao tỉ lệ sử dụng tài nguyên tổng thể.

Cơ sở dữ liệu SeaSQL MPP có thể được mở rộng theo hai cách để đáp ứng nhu cầu của khách hàng: mở rộng host và mở rộng instance. Trong quá trình mở rộng chỉ cần cập nhật siêu dữ liệu bảng hệ thống tức là hoàn thành mở rộng, không cần dừng hoạt động cơ sở dữ liệu, sau khi mở rộng cơ sở dữ liệu sử dụng thuật toán Jump Consistent Hash làm giảm đáng kể sự di chuyển của dữ liệu trong quá trình phân phối lại dữ liệu.
Cơ sở dữ liệu SeaSQL MPP cung cấp nhiều loại mô hình lưu trữ: lưu trữ hàng, lưu trữ cột, lưu trữ hỗn hợp hàng ngũ, có thể phát triển mô hình lưu trữ dữ liệu theo nhu cầu của doanh nghiệp.

SeaSQL MPP cung cấp các chức năng OLAP phong phú bao gồm: Rollup, cube, chức năng cửa sổ, hoạt động đệ quy, v.v. để hỗ trợ các hoạt động phân tích phức tạp, tập trung vào hỗ trợ quyết định cho người ra quyết định và quản lý cấp cao. Có thể tiến hành xử lý truy vấn phức tạp khối lượng dữ liệu lớn một cách nhanh chóng và linh hoạt theo yêu cầu của các nhà phân tích để họ nắm bắt chính xác tình hình kinh doanh của doanh nghiệp, hiểu nhu cầu của đối tượng được phục vụ và xây dựng phương án đúng đắn.
Các tính năng đa đối tượng thuê của cơ sở dữ liệu SeaSQL MPP có thể chia một cơ sở dữ liệu cho nhiều đối tượng thuê để sử dụng, tài nguyên vật lý của các đối tượng thuê khác nhau được tách biệt với nhau, các tính năng đa đối tượng thuê chủ yếu thể hiện các lợi thế sau:
Yêu cầu của các hộ thuê khác nhau đối với tài nguyên vật lý không giống nhau, các tài nguyên cách ly lẫn nhau không quấy nhiễu lẫn nhau, phòng ngừa một số hộ thuê chiếm trước tài nguyên của người dùng khác khi đỉnh cao nghiệp vụ.
Dữ liệu giữa các đối tượng thuê nhà được tách biệt với nhau, cải thiện tính bảo mật của dữ liệu.
Các tài nguyên hệ thống có thể được sử dụng đàn hồi khi tài nguyên hệ thống trốn, các tài nguyên trong bộ nhớ có thể được sử dụng theo các tham số khi thiết lập, nâng cao tỉ lệ sử dụng tài nguyên của toàn bộ hệ thống.
Chỉ số hiệu suất nhập dữ liệu có vai trò quan trọng đối với trải nghiệm sử dụng kho dữ liệu, cơ sở dữ liệu SeaSQL MPP có thể sử dụng tài nguyên của tất cả các nút trong toàn bộ cụm khi tải dữ liệu, hiệu suất tải tăng tuyến tính với số lượng nút tăng, tốc độ tải dữ liệu trong các cụm quy mô lớn có thể đạt tới 20TB/giờ.
MADlib không dành cho lập trình viên, nhưng dành cho phát triển cơ sở dữ liệu hoặc DBA, kết hợp sự đơn giản và dễ sử dụng của SQL với các thuật toán khai thác dữ liệu phức tạp để tận dụng tối đa lợi thế và tính năng của cả hai để cải thiện đáng kể hiệu quả phát triển của nhà phát triển.
Đối với người dùng, MADlib cung cấp các hàm có thể được gọi trong câu lệnh truy vấn SQL, bao gồm không chỉ các hoạt động đại số tuyến tính cơ bản và các hàm thống kê, mà còn các chức năng mô hình học máy hoặc khai thác dữ liệu thường được sử dụng. Người dùng không cần phải đi sâu vào chi tiết thực hiện chương trình của thuật toán, chỉ cần rõ ràng phương pháp sử dụng hàm số là được, cải thiện đáng kể hiệu quả phát triển, tiết kiệm chi phí phát triển.

PostGIS là một phần mở rộng của hệ thống cơ sở dữ liệu quan hệ đối tượng PostgreSQL, chuyển đổi hệ thống quản lý cơ sở dữ liệu PostgreSQL thành cơ sở dữ liệu không gian bằng cách thêm hỗ trợ cho các kiểu dữ liệu không gian, chỉ mục không gian và các hàm không gian vào PostgreSQL.
SeaSQL MPP tích hợp cơ sở dữ liệu không gian PostGIS tích hợp đầy đủ dữ liệu không gian và cơ sở dữ liệu quan hệ đối tượng với nhau, cho phép chuyển đổi GIS làm trung tâm sang cơ sở dữ liệu làm trung tâm. Như vậy, người dùng sẽ không cần một công cụ dữ liệu GIS chuyên dụng để xử lý và thao tác dữ liệu không gian, ứng dụng chỉ cần thông qua ngôn ngữ SQL là có thể thao tác dữ liệu không gian một cách dễ dàng.
SeaSQL MPP Transparent Encryption Module cho phép mã hóa toàn bộ cơ sở dữ liệu hoàn toàn không nhận thức được đối với khách hàng. Khi một khối dữ liệu được ghi vào đĩa, dữ liệu được mã hóa; Khi dữ liệu được đọc từ đĩa, nó được giải mã. Bạn có thể đảm bảo dữ liệu lưu trữ trên bánh luôn ở trạng thái mã hóa, cho dù nhận được nội dung bánh cũng không thể đọc dữ liệu văn bản rõ ràng bên trong. Đồng thời, cấp độ nghiệp vụ hoàn toàn không có nhận thức về hành động mã hóa, không cần phải sửa đổi thích hợp với mã hóa. Phương thức mã hóa áp dụng chế độ mã hóa XTS của AES, đảm bảo tính an toàn của mã hóa dữ liệu.
Khử nhạy dữ liệu (Data Masking), còn được gọi là tẩy trắng dữ liệu, khử riêng tư dữ liệu hoặc biến dạng dữ liệu. Đề cập đến sự biến dạng dữ liệu của một số thông tin nhạy cảm thông qua các quy tắc khử nhạy cảm để đạt được sự bảo vệ đáng tin cậy của dữ liệu riêng tư nhạy cảm. Trong trường hợp liên quan đến dữ liệu an ninh của khách hàng hoặc một số dữ liệu nhạy cảm mang tính thương mại, trong điều kiện không vi phạm quy tắc hệ thống, tiến hành cải tạo và cung cấp sử dụng thử nghiệm đối với dữ liệu thật như số chứng minh thư, số điện thoại di động, số thẻ, số khách hàng v. v. đều cần tiến hành giải mẫn dữ liệu.
Cơ sở dữ liệu SeaSQL MPP cung cấp các phương pháp khử nhạy đa dạng và sau khi quy tắc khử nhạy được xác định, người dùng có thể truy cập dữ liệu khử nhạy theo hai cách sau:
Giải mẫn cảm tĩnh:Loại bỏ thông tin nhạy cảm trong thư viện và dữ liệu nhạy cảm trong cơ sở dữ liệu bị ghi đè không thể phục hồi.
Giải mẫn cảm động:Chặn thông tin nhạy cảm cho người dùng được chỉ định và những người dùng khác không bị khử nhạy cảm vẫn sẽ truy cập dữ liệu gốc.
FDW là sự triển khai của SQL/MED (SQL Management of External Data). FDW cung cấp một loạt các giao diện chung thống nhất cho phép các chương trình mở rộng dễ dàng tích hợp sâu vào các phần cốt lõi như tối ưu hóa, thực thi, quét, cập nhật và thống kê và SeaSQL, cho phép truy vấn và thao tác các nguồn dữ liệu ngoài trực tiếp bằng các câu lệnh SQL. Ví dụ: FDW cho MySQL, người dùng có thể truy vấn, sắp xếp, nhóm, lọc, tham gia và thậm chí chèn và cập nhật dữ liệu từ cơ sở dữ liệu MySQL trực tiếp giống như cách họ thao tác trên bề mặt này.
Tùy thuộc vào nguồn dữ liệu, mô-đun FDW được triển khai bởi SeaSQL bao gồm: postgres_fdw、file_fdw、oracle_fdw、mysql_fdw、json_fdw、redis_fdw、hdfs_dfw, Như hình dưới đây cho thấy:

RoaringBitMap là một thuật toán nén bitmap hiệu quả có thể nâng cao hiệu quả sử dụng bộ nhớ bitmap và giải quyết vấn đề bitmap thưa thớt không phù hợp với lưu trữ thưa thớt. Bitmap Bit Computing là lý tưởng cho tính toán cơ sở dữ liệu lớn và thường được sử dụng trong các tính toán như deweight, lọc nhãn, chuỗi thời gian và nhiều hơn nữa. Plugin gpdb_roaringbitmap tích hợp chức năng Roaringbitmap vào cơ sở dữ liệu SeaSQL MPP, cung cấp hỗ trợ chức năng cơ sở dữ liệu gốc, toán tử, tổng hợp và nhiều hơn nữa như một kiểu dữ liệu.