BigTeddy's Playground

Posts

Showing posts from April, 2020

SAS Data Quality -- Data Management Studio

- April 26, 2020

A data curator's job is to understand and prepare data for use in analytics and reports. SAS has several of ferings that can aid in this ef fort. The technology components that comprise SAS data quality offerings include: • DataFlux Data Management Studio – a Windows-based desktop client application that enables you to create and manage processes for ensuring the accuracy and consistency of data during the data management life cycle. Typically, Data Management Studio is thought of as the development environment. • DataFlux Data Management Server – provides a scalable server environment for executing the processes created in Data Management Studio. Typically, Data Management Server is thought of as the production environment. • SAS Quality Knowledge Base (QKB) – a collection of files and algorithms that provide the data cleansing and data management functionality that is surfaced through the nodes in Data Management Studio processes. • Reference data source(s) – third-party address ...

The SAS Platform Applications

- April 25, 2020

The Analytics Applications and other SAS tools help analysts make and manage models, forecast trends, and generate statistics and visualizations on data. --SAS Enterprise Miner --SAS Forecast Server --SAS Model manager --JMP The Reporting Applications available in the SAS platform and other SAS applications allow users to generate complex dashboards and reports on their data as well as access data and generate reports with Microsoft Office tools like Excel or Word. --SAS Add-In for Microsoft Office --SAS Visual Analytics The Programming Interfaces available in the SAS platform allow users to write and edit SAS code, which can be used to manage, analyze, and report on data. SAS code will be used in this course to generate custom transformations and can be used in the tool to customize jobs and existing transformations. --SAS Studio --SAS Enterprise Guide The Data Management Applications available in the SAS platform. --SAS Data Integration Studio application --DataFlux Data Managem...

SAS Academy for Data Science

- April 25, 2020

### Data Curation Professional (4 courses) Learn about data curation, data management and Hadoop – everything you need to manage big data. -----Introduction to Data Curation for SAS Data Scientists -----SAS Data Management Tools and Applications -----SAS and Hadoop -----Advanced SAS Data Management Tools and Applications ### Advanced Analytics Professional (9 courses) Expand your analytical skill set by learning analytical modeling, machine learning, experimentation, forecasting and optimization. ===Predictive Modeler Using SAS Enterprise Miner=== -----Applied Analytics Using SAS® Enterprise Miner ==Advanced Predictive Modeling Using SAS 9.4=== -----Predictive Modeling Using Logistic Regression -----Neural Network Modeling -----Data Mining Techniques: Predictive Analytics on Big Data -----Using SAS® to Put Open Source Models into Production ===Text Analytics, Time Series, Experimentation, and Optimization=== -----Text Analytics Using SAS® Text Miner -----Time Se...

Snapshot Clone & Application Container

- April 23, 2020

多租户结构，共享系统资源 Testing on T5 -- 252 non-CDB vs PDB Total throughtput double 吞吐量增加一倍内存使用减少 1/8 容器数据特点为每个应用独立分配PDB：无需更改应用，快速供应（克隆），可（在线）插拔常规维护操作都在CDB级进行：多个PDB作为一个整体进行管理升级，HA，备份；必要时可以进行更细粒度操作资源共享：后台进程（SGA/ RECO, SMON, PMON, CKPT, LGWR), spfile, redo file, 本地Undo，从12.2.0.1起默认： Falshback Pluggable Database， Hot cloning Resource Manager SGA_MIN_SIZE IORM CPU_COUNT Create PDB from leagcy DB: exec DBMS_PDB.DESCRIBE('PDB1.xml')； create pluggable database .... start ?/rdbms/admin/nocdb_se... Connect PDB export TWO_TASK = PDB 利用curl调用API创建PDB，搭建数据库即服务 DBasS 压力测试软件 SwingBench 2.5.0.971 通过Database Link重定位，在线迁移PDB...

GitLab CI/CD

- April 22, 2020

GitLab CI New Customer Orientation https://www.youtube.com/watch?v=Ci06e7LxP88 Getting the Runner https://docs.gitlab.com/runner/install/ CI YAML Reference https://docs.gitlab.com/ee/ci/yaml/ .gitlab-ci.yml Examples https://docs.gitlab.com/ee/ci/examples/README.html search: "GitLab CI Reference"

Oracle 19c: Distributed Database -- Sharding

- April 16, 2020

分布式数据库发展历程 1987 分布式数据库应遵循的12条原则 Google 2003， 2004， 2006 年发表的GFS， MapReduce， BigTable 2012年Google公布分布式数据库系统Spanner （NewSQL） Sharing的作用更高的扩展性和故障隔离性，数据分片避免大型单一数据库扩展；愿意修改应用，把负载路由到指定的数据库数据主权问题 Oracle Database Sharding 跨独立数据库的水平分区数据，同一个表的不同分区可以放在不同的数据库里。逻辑上是一个数据库，所有分片具有相同的Schema 无共享的可伸缩性和可用性架构--- Shared Nothing的架构 Sharing 好处 Linear Scalability 线性扩展 1000个分片 Extreme Available极高可用性分布部署 Oracle Sharding的优势 ACID， ADG/OGG 。。。 Oracle Sharding架构由两部分组成 Oracle GDS （Global Data Services）v12cR1 实现自动部署和sharding管理以及拓扑复制 ...

Simple Linear Regression Sample

- April 16, 2020

###Python### # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd # Importing the dataset dataset = pd.read_csv('Salary_Data.csv') X = dataset.iloc[:, :-1].values y = dataset.iloc[:, 1].values # Encoding categorical data # Encoding the Independat Variable ## Method 1 from sklearn.compose import ColumnTransformer from sklearn.preprocessing import OneHotEncoder ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough') X = np.array(ct.fit_transform(X)) ## Method 2 """ from sklearn.preprocessing import LabelEncoder, OneHotEncoder labelencoder_X = LabelEncoder() x[:, 3] = labelencoder_X.fit_transform(x[:, 3]) onehotencoder = OneHotEncoder(categorical_features = [3]) X = onehotencoder.fit_transform(X).toarray() """ # Splitting the dataset into the Training set and Test set from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_tes...

Build a Data Model

- April 16, 2020

5 methods of building models: 1. All-in 2. Backward Elimination 3. Forward Selection 4. Bidirectional Elimination 5. Score comparison P Value What is a p-value https://www.mathbootcamps.com/what-is-a-p-value/ How to Calculate P Value https://www.wikihow.com/Calculate-P-Value

Classification of Data Visualization

- April 16, 2020

可视化分类：ft.com/vocabulary 离差/Deviation 强调相对于一个固定参考值的变化（正/负值）。通常参考值为零，但也可能是一个目标数值或是长期平均值。也能用来展现态度倾向（正向/中立/负面）。分向条形图/Diverging bar 一种简单、标准化的条形图，能同时处理正、负数值。分向堆叠条形图/Diverging stacked bar 最适合用来展现牵涉到态度（正向/中立/负面）的调查结果。成对条形图/Spine 将单一数值分成两组对比的组成（例如男性/女性）。盈余/赤字填充线图/Surplus/deficit filled line 阴影部分能展示出一种平衡关系，或者是相对于某个基准线，或者是两组数据之间。相关性/Correlation 展示两个或多个变量之间的关系。要注意的是，除非你特别说明，大部分人会认为你所展示的两个变量之间存在因果关系（例如一个变量导致另一个变量变化）排序/Ranking 当某个项目在排序列表中的位置比其绝对数值或相对数值的大小更重要时，使用这种图表。不要害怕强调出需要关注的重点。分布/Distribution 显示数据集中的数值及其出现的频率。分布的形状（或偏离程度）是突出数据的不一致或不平均的方便记忆的方式。规模/Magnitude 用来比较数据的规模。有可能是比较相对规模（显示出哪一个比较大），有可能是比较绝对规模（需要显示出精确的差异）。通常用来比较数量（例如桶、人、美元），而不是经过计算后的比率或百分比。部分和整体的关系/Part-to-whole 能显示出一个整体如何被拆解成不同组成。如果读者只是想了解个别组成部分的大小，不妨改用规模类的图表。地理空间/Spatial 当数据中的精确位置和地理分布规律比其他信息对读者来说更重要时，可使用这类图表。流向/Flow 向读者展示两个或两个以上的状态、情境之间流向的流动量或流动强度。这里的状态、情境可能是逻辑关系或地理位置。时间变化/Change Over Time 强调趋势的变化。有可能是短期（一日内）波动或长到数十年或数百年的改变。为了向读者提供适当的背景信息，选择正确的时间段很重要

Oracle 19c: Security Enhancement

- April 09, 2020

数据是我们最宝贵的资源，其中包含大量敏感信息网络安全等级保护条例(等保)2.0保护对象大幅度增加，涉及云，大数据等 Oracle DB Security Assessment Tool Audit Data/Audit Vault 从12c开始，特权分析功能可以捕获用户的行为使用的特权，以回收不必要的特权 Privilege Analysis 通过Audit Vault可进行数据审计，而通过data masking进行数据加密保护 Data Masking Transparent Data Encryption/Key Vault Database Vault Database Firewall Advanced Security Security Backup/ZDLRA ADG/Golden Gate Label Security AVDF/Database Valut Data Masking/Data Redaction IDM 访问控制 ---------------------Oracle 19c Security------------------------------ Oracle 数据字典加密 AES192，AES256加密离线表空间更新了FIPS加密库 Database Vault 操作控制防止云DBA访问PDB数据审计 top-level用户行为 Schema-Only Accounts 跨主备库单一登录失败计数 create user auxapp no authentication; alter user add/remove privillege Oracle Database Vault, 通过安全域的设置分离访问权限 Database Vault Operations Control。云运营人员不应看到PDB中的数据。通过PDB lockdown profile 的补充保护，可防止PDB用户影响其它PDB和数据库 TDE 能够加密包括数据字典内的所有Oracle 表空间 RMAN数据迁移时自动加密每个PDB可选自己的密钥库 Keystore TDE主要针对存储数据的加密，而Data Redaction主要针对展现数据的加密 TDE表空间加密可以无缝连接其它技术：Exadata，Data Stream， smart sc...

Exadata Flashcache, In-Memory

- April 07, 2020

Database 的功能智能延伸到了存储层 RDMA 提供低延迟和低CPU消耗 Flash的变革2009- 2019 Flash SCSI（v2）--》 Flash NvMe （v5）。到X5的时候开始采用NVMe技术，充分的使用了PCIe接口的性能，而不是类似之前其实还是通过SAS。三星NVMe接口，2014年开始在Exadata装备NVMe Flash。X6 第二代NVMe， X7第三代NVMe 2019年前后数据库瓶颈：一个NVMe Flash 可以提供5.8G/s的带宽，其它的Flash设备吞吐能力被浪费。 Exadata X8 可以支持560G/s的flash带宽（~接近800G/s数据库DRAM内存带宽）必须把计算下移到存储才能发挥Flash I/O的能力。由于Exadata使用了Query offload,才有可能充分发挥flash cache的性能 Exadata的Falsh Cache的命中率可以高达90%，这是由于Exadata更了cache的内容，而不是仅按照数据块来cache。同时我们使用Flash会有与数据库结合的技术，例如通过Smart log来解决Flash写风暴的问题 Exadata Smart Flash Log 并行使用flash缓存和磁盘控制器写入。 Exadata In Memory columnar Flash Cache 25.6TB * 3 = 76.8TB

Oracle 19c: Hybrid Partition Table

- April 06, 2020

从Oracle Database 19c开始，Oracle数据库支持Hybrid partitioned tables，也就是混合分区表，进一步扩展了Oracle分区技术。这里的混合指的是数据的分布，一些分区可以位于数据库中，另一些可以是位于数据库外部的文件（比如操作系统文件或Hadoop Distributed File System (HDFS) 文件）。这个特性的出现，其实一点也不奇怪，因为从12.2开始就支持了外部表分区、只读分区，在19c中只是将内部分区（internal partitions）与Oracle外部分区（external partitions）特性结合起来，形成一个更通用的分区，称为混合分区表。 Oracle 三大件: DG, RAC, Partition When to partition a table: 1. table great than 2GB 2. table contains historical data, which new data is added into the newest partition How to change to partition tables: 1. export/import method 2. insert with a subquery method 3. partition exchange method 4. dbms_redefiniation Orcle Partition History: 7.3: start, through view 8i: hash partition 9i: 支持列表分区 10g: 支持IoT，个数由64k to 1024k，全局索引的hash分区 11g: 间隔分区，多种组合分区，虚拟列分区，分区建议器 12c: 在线分区维护，部分分区索引，global索引维护，外部分区表，分区与sharding，只读分区 18c: 在线更改分区类型，在线merge分区，parallel partition wise-join 19c: 混合分区表 --Oracle 11g Interval auto creation create table intervalpart (c1 number, c3 date) partition by ran...

Oracle19c: Upgrade Path

- April 05, 2020

Oracle 19c: Oracle Database 12c家族中的集大成者 --Long term support, extended support until 2025 --19c = 12.2.0.3 --19.3.0 On primer Release Upgade Introduction and FAQ RU ~ PSU RUR: Season Patch Package: includes Security and rollback patching Release Update Introduction and FAQ (Doc ID 2285040.1 Oracle Database 19c Proactive Patch Information Doc ID 2521164.1 •RU ：季度补丁包 :包含查询优化器修复、功能修复、安全修复、回退修复 •RUR ：季度补丁包的修复 •包含安全修复、回退修复 •在 RU 和 RUR 之间可以来回切换，但是新的 patch 必须是之前 patch 的超集（新的 patch 包含了之前 patch 的所有修复） •查询优化器修复默认是禁止的，它的一些修复会改变执行计划，必须由客户有选择的启用，参阅 Automatic Fix Control Persistence (FCP) for Database Proactive Bundle Patch Doc ID 2147007.1 升级准备：环境确认，系统备份，升级确认 Clinet，JDBC/JDK compatible confirm。Installation， Certification 19.3.0，19.4.0， 19.5.0 (January 14, 2020), 19.6.0 Traditional Install: ./runInstaller RPM Install: #yum install y oracle database preinstall 19c #yum y localinstall oracle database ee 19c 1.0 1.x86_64.rpm Patches to apply before upgrading Oracle GI and DB t...

Database in Memory

- April 03, 2020

全栈Oracle In-Memory技术：更快的速度，更快的业务 TimesTen In-Memory 数据库 • 延时敏感的OLTP应用 • 微秒级响应时间 • 独立式或作为Oracle数据库的缓存 Database In-Memory • 双格式内存数据库 • 10亿行/秒分析型数据处理 • 2-3x 更快的混合负载应用 Exadata上的In-Memory • Exadata Flash Cache支持In-Memory格式 • 5-10x 更快的Smart Scan • 15x 总体列式容量的增加 The Forrester Wave™: In-Memory Databases, Q1 2017 http://www.oracle.com/us/corporate/analystreports/forrester-imdb-wave-2017-3616348.pdf 行格式数据库 vs. 列格式数据库 • 交易在行格式上运行更快 – 示例: 查询和插入一条销售订单 – 可很快的处理少数行，很多列 • 分析在列格式上运行更快 – 示例 : 按区域的销售统计报告 – 可很快的处理少数列，很多行突破: 双格式数据库, No need to load all the data in Memory • 表同时具有行和列两种格式 • 同时激活并保证事务一致性 • 分析和报表使用新的内存列格式 • OLTP 使用久经验证的行格式 Oracle In-Memory 列格式 • 内存纯列格式 • 无需持久化，开销很小 • 不修改磁盘中的格式 • 在所有平台中提供 • 可在表空间，表，分区和子分区级别启用 • 可以指定部分列 • 内存区域大小由inmemory_size 参数控制延迟敏感型应用，使用TimeTen Database • Star-schema 和预计算KPI - 提升dash-board性能 • Foundation Layer 中的全部或部分 - 基于第三范式时间敏感的分析 • Staging/ETL/Temp 不适合 - 写一次, 读一次 •In-Memory Area是SGA的一部分，由参数INMEMORY_SIZE设定，包括IMCU(列式数据...

Converged Database

- April 02, 2020

Support mutliple data module, such as OLAP, OLTP, in Memory Big Data, RDBMS, NoSQL DB 数据管理的变化，多样性: ( 数据类型，应用类型) 满足数据驱动的需求 DB-Engines lists 350 different database management system 数据库要求提高：数据量，可扩展性，可用性，数据种类，安全性 AWS 单一融合数据库 vs Oracle 多个专用数据库 AWS： Aurora， Redshift，DynamoDB 单一数据库开发碎片化，要求应用程序使用专有的API；数据安全策略的实施部署/更改数据一致性：转换数据并传播更改，数据延迟和数据差异可扩展性和可伸缩行差，跨站点的故障转移非常脆弱数据架构的复杂性是否对微服务友好? 数据共享困难，数据分析困难，事务回滚困难，管理维护困难 Oracle 借助多租户特性，将多种数据库，数据类型和工作负载聚合到一个数据库中动态移动可插拔数据库数字趋势专用系统 vs 多用途系统 Oracle Converged Database 功能：关系型，内存计算，JSON， IoT，机器学习，区块链，分片融合数据库的好处, 多租户架构使Oracle融合数据库架构实现数据库的分离 --简化应用开发 --内置特定查询语言 --跨任何数据类型启用SQL和事务 --支持混合工作负载 --支持所有主要的开发环境和API --支持多语言 --更加灵活的应用程序，结构化和非结构化（JSON或XML） --并行SQL跨结构 --强大的协同作用 --OLAP实时分析/防欺诈，OLTP和文档类型融合 Oracle支持任何类型 Traditional： OLTP，Analytics Next Generation： Microservices，IoT, Key_value, ML, AI, R, Big Data Structure: RDBMS, XML , graph Relational, Document, Spatial, graph, AI/ML, IoT, Time Series, File System 通过Oracle融合数据库的架构，来支持用户通过微服务完成复杂事务，同时减少开...