Login
网站首页 > 文章中心 > 其它

数据库系统原理之数据管理技术的发展

作者:小编 更新时间:2023-08-16 14:26:12 浏览量:116人看过

第一节 数据库技术发展概述

数据模型是数据库系统的核心和基础

以数据模型的发展为主线,数据库技术可以相应地分为三个发展阶段:第一代的网状、层次数据库系统

第二代的关系数据库系统

新一代的数据库系统

第一段:第一代数据库系统

层次数据库系统 层次模型

网状数据库系统 网状模型

层次模型是网状模型的特例

第一代数据库系统有如下两类代表:

DBTG 报告

这两类数据库系统具有的共同特点:

支持三级模式(外模式、模式、内模式)的体系结构.模式之间具有转换(或称为映射)功能.

用存取路径来表示数据之间的联系.

独立的数据定义语言.

导航的数据操纵语言.

第二段:第二代数据库系统

支持关系数据模式的关系数据库系统是第二代数据库系统.

经过大量高层次的研究和开发取得了以下主要成果:

奠定了关系模型的理论基础,给出了人们一致接受的关系模型的规范说明.

研究了关系数据语言,有关系代数、关系演算、SQL语言及QBE等.

研制了大量的 RDBMS的原型,攻克了系统实现中查询优化、并发控制、故障恢复等一系列关键技术.

关系数据库是以关系模型为基础的,而关系模型是由数据结构、关系操作和数据完整性三部分组成.

第二代关系数据库系统具有模型简单清晰、理论基础好、数据独立性强、数据库语言非过程化和标准化等特点.

第三段:新一代数据库系统

从面向对象(OO)模型、面向对象数据库管理系统(OODBMS)实现技术、OODBMS产品研发和应用等各个层面进行了大量的创新工作.

由于面向对象数据模型中许多功能难以实现,面向对象数据库系统过于复杂不易使用,尽管开发出许多面向对象数据库产品,但是成熟度低,最终没有被市场普遍接受.

这三个基本特征如下:

第三代数据库系统应支持数据管理、对象管理和知识管理.第三代数据库系统应该是以支持面向对象数据模型为主要特征的数据库系统

只支持面向对象模型的系统不能称为第三代数据库系统

第三代数据库系统还应具备其他特征

第三代数据库系统必须保持或继承第二代数据库系统的技术

第三代数据库系统必须对其他系统开发

既然对于第三代数据库系统并没有形成一致的认识,因而通常把第二代以后的数据库系统称为新一代数据库系统.

数据库与其他计算机技术相结合,是数据库技术发展的一个显著特征.

数据仓库、工程数据库、统计数据库、空间数据库、科学数据库等多种数据库

第二节 数据仓库与数据挖掘

第一段:从数据库到数据仓库

计算机系统中存在着两类不同的数据处理工作:

操作型处理,也称为联机事物处理(Online Transaction Processing,OLTP)

分析型处理,也称为联机分析处理(Online Analytical Processing,OLAP)

传统的数据库技术为操作型处理服务

数据仓库为分析型处理服务

数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持管理决策的过程.

数据仓库用于支持决策,面向分析型数据处理,不同于提供业务效率的操作型数据库.

数据仓库对分布在组织或企业中的多个异构数据源集成,按照决策主题选择数据并以新的数据模型存储.

存储在数据仓库中的数据一般不能修改.

数据仓库主要有以下特征:

面向主题

集成性

数据的非易失性数据经加工和集成进入数据仓库后是极少更新的,通常只需要定期加载和更新.

数据的时变性

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别,细化程度越高,粒度级就越小,相反地,细化程度越低,粒度级就越大.

在数据仓库中的数据量大小与查询的详细程度之间要做出权衡.

分割是将数据分散到各自的物理单元中,以便能分别处理,以提高数据处理的效率.

数据分割后的单元称为切片

维是人们观察数据的特定角度,是考虑问题时的一类属性.

维可以有细节程度的不同描述方面(维的层次)

数据集市(Data Mart)的基本思想是自下而上的数据仓库的开发方法.

数据集市独立的数据集市(Independent Data Mart)

从属的数据集市(Dependent Data Mart)

两种集市的混合

第二段:数据挖掘技术

数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现并提取隐藏在其中的、人们事先不知道的、但又是潜在有用的信息和知识的一种技术.

它又被称为数据库中的知识发现(Knowledge Discovery in Database,KDD),其与数据库、数理统计、机器学习、模式识别、模糊数学等诸多技术相关.

数据处理不是数据挖掘.

数据挖掘具备下列几种功能:概念描述

关联分析关联简单关联

时序关联

因果关联

目的是找出数据库中隐藏的关联网.

常见的关联分析算法有 Apriori、FP-Growth等.

分类与预测常见的分类模型机算法决策树模型

神经网络模型

线性回归模型

聚类常见的聚类算法有 K-Means、GMM等.

孤立点检测

趋势和演变分析数据挖掘的过程:确定业务对象

从数据库中来

数据的预处理

建模

模型评估

模型部署

第三节 大数据管理技术

大数据(Big Data)时代

第一段:大数据的定义

目前大数据尚无统一的定义,通常被认为是数据量很大、数据形式多样化的数据.

一般意义上,大数据是指无法在可容忍的时间内用现有信息技术和软、硬件工具对其进行感知、获取、管理、处理的服务的数据集合,且其具有如下特征:

数据量巨大,即大量化(Volume)

数据种类繁多,即多样化(Variety)

处理速度快,即快速化(Velocity)

价值(Value)密度低价值密度的高低与数据总量的大小成反比

大数据的本质并非在于大,而在于其价值含量

第二段:大数据管理技术典型代表

分布式文件系统 HDFS

Not Only SQL 数据管理技术不仅仅是 SQL

横向扩展

NoSQL 系统支持的数据存储模型通常有键值(Key-Value)模型、文档(Document)模型、列(Column)模型和图(Graph)模型等.

键值(Key-Value)存储 哈希函数Tokyo Cabinet/Tyrant

Redis

Oracle BDB

文档存储CouchDB

MongoDB

列存储Cassandra

HBase

图存储结点、属性、边

MapReduce 以 Key/Value 的分布式存储系统为基础,通过元数据集中存储、数据以 chunk 为单位分布存储和数据 chunk 冗余复制来保证其高可用性.

MapReduce 是一种并行编程模型.

MapReduce 是一种简单易用的软件框架.

通常,计算结点和存储结点是同一个节点,即 MapReduce 框架和 Hadoop 分布式文件系统运行于相同的结点集.

以上就是土嘎嘎小编为大家整理的数据库系统原理之数据管理技术的发展相关主题介绍,如果您觉得小编更新的文章只要能对粉丝们有用,就是我们最大的鼓励和动力,不要忘记讲本站分享给您身边的朋友哦!!

版权声明:倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

编辑推荐

热门文章