Site updated: 2024-05-29 22:50:12

daixinwang · May 29, 2024 · 3f444d8 · 3f444d8
1 parent 41567b1
commit 3f444d8
Show file tree

Hide file tree

Showing 39 changed files with 1,776 additions and 1,396 deletions.
diff --git a/2023/11/25/da-shu-ju-ji-zhu-ji-chu-qi-mo-fu-xi/index.html b/2023/11/25/da-shu-ju-ji-zhu-ji-chu-qi-mo-fu-xi/index.html
diff --git a/2023/11/28/da-shu-ju-ji-zhu-ji-chu-xiao-ce-er/index.html b/2023/11/28/da-shu-ju-ji-zhu-ji-chu-xiao-ce-er/index.html
@@ -351,7 +351,7 @@ <h1 class="description center-align post-title">大数据技术基础小测二</
 
                 <div class="info-break-policy">
                     <i class="far fa-clock fa-fw"></i>阅读时长:&nbsp;&nbsp;
-                    9 分
+                    8 分
                 </div>
 
 
@@ -375,61 +375,60 @@ <h1 class="description center-align post-title">大数据技术基础小测二</
         <div class="card-content article-card-content">
             <div id="articleContent">
                 <ol>
-<li>Kafka在架构和应用定位上不包括：<br>A、存储的数据是多副本的，能够做到数据不丢<br>B、可将数据暂存一段时间(默认是一周)，供消费者重复读取，提供了类似于“发布订阅模式”的功能<br>C、提供memory channel和file channel，数据有可能丢失<br>D、生产者和消费者均需要用户使用API编写，仅提供了少量的与外部系统集成的组件&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [单选题]</li>
+<li>Kafka在架构和应用定位上不包括：<br>A、存储的数据是多副本的，能够做到数据不丢<br>B、可将数据暂存一段时间(默认是一周)，供消费者重复读取，提供了类似于“发布订阅模式”的功能<br>C、提供memory channel和file channel，数据有可能丢失<br>D、生产者和消费者均需要用户使用API编写，仅提供了少量的与外部系统集成的组件      [单选题]</li>
 </ol>
 <blockquote>
 <p>解析：<br>A选项，<strong>Kafka通过在多个服务器上复制数据来确保数据的高可用性和持久性</strong>。这意味着即使某个服务器失败，Kafka也能保证数据不会丢失。<br>B选项，<strong>Kafka允许在服务器上暂存数据一段时间</strong>，这个时间是可配置的（默认情况下大约是一周）。这样，消费者可以在这段时间内重复读取数据。<strong>Kafka的这种功能支持发布订阅模式</strong>，其中生产者发布消息，而消费者订阅并读取这些消息。<br>C选项，Kafka本身不提供memory channel和file channel这样的概念。这些是Apache Flume的组成部分，另一个不同的数据集成工具。在Kafka中，数据的持久性和可靠性是通过复制和日志存储来实现的，并不直接依赖于内存或文件系统。<br>D选项，<strong>Kafka要求开发者使用其API来实现生产者和消费者</strong>。然而，<strong>Kafka提供了丰富的与外部系统集成的组件和连接器</strong>，例如Kafka Connect，这使得与外部系统的集成变得更加容易和灵活。答案选C</p>
 </blockquote>
-<ol start="2">
-<li>在Kafka中，每条数据被称为“消息”，每条消息表示为一个三元组，该三元组不包括：<br>A、topic B、key C、message D、value&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [单选题]</li>
+<ol>
+<li>在Kafka中，每条数据被称为“消息”，每条消息表示为一个三元组，该三元组不包括：<br>A、topic B、key C、message D、value      [单选题]</li>
 </ol>
 <blockquote>
 <p>解析：在Kafka中，消息是通信的基本单位。每条消息都有三个主要组成部分：<br>A. <strong>Topic</strong>（主题）：标识消息所属的类别或主题，允许消息被发布到特定的类别。<br>B. <strong>Key</strong>（键）：是一个可选字段，用于标识消息的唯一性，帮助在分布式系统中将消息路由到特定的分区。<br>C. <strong>Message</strong>（值）：包含实际传输的数据，即消息的内容。<br>所以，在这个三元组中，不包括的部分是 D、value。</p>
 </blockquote>
-<ol start="3">
-<li>Producer负责将数据写入Broker，通常由用户根据实际需要编写，一般不包括以下哪个步骤：<br>A、创建配置对象ProducerConfig<br>B、定义分类区SimplePartitioner<br>C、创建Producer对象，并发送数据<br>D、创建配置对象ConsumerConfig&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [单选题]</li>
+<ol>
+<li>Producer负责将数据写入Broker，通常由用户根据实际需要编写，一般不包括以下哪个步骤：<br>A、创建配置对象ProducerConfig<br>B、定义分类区SimplePartitioner<br>C、创建Producer对象，并发送数据<br>D、创建配置对象ConsumerConfig      [单选题]</li>
 </ol>
 <blockquote>
 <p>解析：Producer负责将数据写入Broker，通常由用户根据实际需要编写。可根据以下三个步骤进行：<strong>创建配置对象ProducerConfig；定义分类区SimplePartitioner；创建Producer对象，并发送数据。</strong> D选项属于Consumer程序的步骤。</p>
 </blockquote>
-<ol start="4">
-<li>ZooKeeper内部存储着有关HBase的重要元信息和状态信息，担任着HMaster与RegionServer之间的服务协调角色，具体职责不包括：<br>A、保证任何时候，集群中可以存在多个HMaster；<br>B、存储所有Region的寻址入口；<br>C、实时监控RegionServer的上线和下线信息，并实时通知给HMaster；<br>D、存储HBase的schema和table元数据&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [单选题]</li>
+<ol>
+<li>ZooKeeper内部存储着有关HBase的重要元信息和状态信息，担任着HMaster与RegionServer之间的服务协调角色，具体职责不包括：<br>A、保证任何时候，集群中可以存在多个HMaster；<br>B、存储所有Region的寻址入口；<br>C、实时监控RegionServer的上线和下线信息，并实时通知给HMaster；<br>D、存储HBase的schema和table元数据      [单选题]</li>
 </ol>
 <blockquote>
 <p>解析：<br>A选项，在HBase中，<strong>通常只有一个活动的HMaster</strong>，它负责协调和管理整个HBase集群。ZooKeeper确保集群中只有一个活跃的HMaster，并在HMaster失败时协助选举新的HMaster。因此，ZooKeeper不是用来保证多个HMaster同时存在的。<br>B选项，<strong>ZooKeeper在HBase中用于存储关于Region服务器的信息</strong>，包括它们的地址和状态，这样客户端和HMaster可以知道如何与这些Region服务器通信。<br>C选项，<strong>ZooKeeper监控着RegionServer的状态</strong>，包括它们的上线和下线。当RegionServer的状态发生变化时，ZooKeeper会及时通知HMaster，从而允许HMaster做出相应的调整。<br>D选项。承担了许多协调和管理的角色，<strong>负责存储HBase的schema和表的元数据</strong>。</p>
 </blockquote>
-<ol start="5">
-<li>根据接收者可能收到的重复消息的次数，将消息传递语义分为三种模式，其中，发送者发送后立即返回，不关心接收者是否收到这种模式是：<br>A、at least once B、at most once C、exactly once&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [单选题]</li>
+<ol>
+<li>根据接收者可能收到的重复消息的次数，将消息传递语义分为三种模式，其中，发送者发送后立即返回，不关心接收者是否收到这种模式是：<br>A、at least once B、at most once C、exactly once      [单选题] </li>
 </ol>
-<p>&nbsp;</p>
 <blockquote>
 <p>解析：<br><strong>at most once</strong>：发送者将消息发送给消费者后，立刻返回，不会关心消费者是否成功收到消息。 这种情况下，消息可能被消费者成功接收，也可能丢失；<br><strong>at least once</strong>：发送者将消息发送给消费者后，需等待确认，如果未收到确认消息，则会重发消息。这种语义能保证消费者收到消息，但可能会收到多次；<br><strong>exactly once</strong>：消费者会且只会处理一次同一条消息。</p>
 </blockquote>
-<ol start="6">
-<li>下列关于网络数据采集说法错误的是<br>A.网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息，支持图片、音频、视频等文件或附件的采集，附件和正文可以自动关联<br>B.网络爬虫的常见抓取策略有宽度优先策略、反向链接策略、PartialPageRank策略、OPIC策略、大站优先策略等<br>C.单个抓取程序足以胜任大规模的分布式抓取系统，不需要多个抓取程序协同工作<br>D.Scrapy Engine作为Scrapy内部的主要组件构成，负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; [单选题]</li>
+<ol>
+<li>下列关于网络数据采集说法错误的是<br>A.网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息，支持图片、音频、视频等文件或附件的采集，附件和正文可以自动关联<br>B.网络爬虫的常见抓取策略有宽度优先策略、反向链接策略、PartialPageRank策略、OPIC策略、大站优先策略等<br>C.单个抓取程序足以胜任大规模的分布式抓取系统，不需要多个抓取程序协同工作<br>D.Scrapy Engine作为Scrapy内部的主要组件构成，负责控制系统所有组件之间的数据流，并在发生某些操作时触发事件      [单选题]</li>
 </ol>
 <blockquote>
 <p>解析：一般来说，大规模的分布式抓取系统需要抓取整个互联网上数以亿计的网页，单个抓取程序难以胜任，往往需要多个抓取程序协同工作。</p>
 </blockquote>
-<ol start="7">
+<ol>
 <li>下列关于HDFS关键技术说法正确的是（ABD）<br>A. HDFS的数据块损坏容错性设计为：DataNode保存数据块时，会同时生成一个校验码。当存取数据块时，如果发现校验码不一致则认为该数据块已经损坏，NameNode会通过其他节点上的正常副本重构受损的数据块。<br>B. HDFS的副本放置策略与集群物理拓扑结构是直接相关的。<br>C. HDFS只提供了API方式，让用户管理集中式缓存系统中的文件和目录，可以根据需要将一个文件增加到缓存中，或从缓存中移除。<br>D. HDFS支持多种常用存储类型，包括：ARCHIVE、DISK、SSD、RAM_DISK。</li>
 </ol>
 <blockquote>
 <p>解析：HDFS允许用户将一部分目录或文件缓存在off-heap内存中，以加速对这些数据的访问效率，该机制被称为集中式缓存管理。<strong>为了方便用户管理集中式缓存系统中的文件和目录，HDFS提供了API和命令行两种方式</strong>，可以根据需要将一个文件增加到缓存中，或从缓存中移除。</p>
 </blockquote>
-<ol start="8">
+<ol>
 <li>下列关于NoSQL说法错误的是（B）<br>A. NoSQL是非关系型数据库的统称，采用类似键-值、列族、文档等非关系模。<br>B. 关系型数据库是横向扩展的，NoSQL数据库是纵向扩展的。<br>C. NoSQL以块为单元操作数据，使用的是非结构化的查询语言。<br>D. NoSQL存储的格式都是key-value类型的，并且存储在内存中，非常容易存储，而且对于数据的一致性是弱要求。NoSQL无需SQL的解析，提高了读写性能。</li>
 </ol>
 <blockquote>
 <p>解析：纵向扩展(scale-up)是指利用现有的存储系统，通过不断增加存储容量来满足数据增长的需求；横向扩展(scale-out)是指以网络互连的节点为单位扩大存储容量(集群)。<br><strong>关系系型数据库是纵向扩展</strong>，也就是说想要提高处理能力，要使用速度更快的计算机。<br><strong>Nosql数据库是横向扩展的</strong>，它的存储天然就是分布式的，可以通过给资源池添加更多的普通数据库服务器来分担负载。</p>
 </blockquote>
-<ol start="9">
+<ol>
 <li>RegionServer写流程的具体流程包括：<br>A、RegionServer收到写请求后，将写入的数据以追加的方式写入HDFS上的日志文件WAL；<br>B、扫描器查找缓存BlockCache，它内部缓存了最近读取过的数据<br>C、RegionServer将数据写入内存数据结构MemStore中，之后通知客户端数据写入成功；<br>D、当MemStore所占内存达到一定阈值后，RegionServer会将数据顺序刷新到HDFS中，保存成HFile格式的文件</li>
 </ol>
 <blockquote>
 <p>解析：ACD<br>扫描器查找缓存BlockCache，它内部缓存了最近读取过的数据。这个选项似乎不是写流程的一部分，而是读流程的一部分，因此不包括在内</p>
 </blockquote>
-<ol start="10">
+<ol>
 <li>下列关于文件存储格式说法正确的是：<br>A.文件存储格式直接决定了数据存取效率以及被上层分布式计算集成的容易程度<br>B.常见的存储格式包括行式存储和列式存储两种：行式存储以文本格式Text File、key/value二进制存储格式Sequence File为典型代表；列式存储以ORC、Parquet和Carbon Data三种文件格式为代表<br>C.行存储和列存储的写入都是一次完成，性能较高<br>D.行存储将每行数据存储在一起，压缩比较低；列存储以列为单位存储数据，使得类型相同的数据存放在一起，对压缩算法友好，压缩比较高</li>
 </ol>
 <blockquote>
@@ -833,7 +832,7 @@ <h1 class="description center-align post-title">大数据技术基础小测二</
             <br>
 
                 &nbsp;<i class="fas fa-chart-area"></i>&nbsp;站点总字数:&nbsp;<span
-                        class="white-color">45.8k</span>
+                        class="white-color">45.7k</span>
 
 
 

diff --git a/2023/11/28/da-shu-ju-ji-zhu-ji-chu-xiao-ce-yi/index.html b/2023/11/28/da-shu-ju-ji-zhu-ji-chu-xiao-ce-yi/index.html
@@ -6,10 +6,10 @@
     <meta charset="utf-8">
     <meta name="keywords" content="大数据技术基础小测一, learning,life,coding,computer science">
     <meta name="description" content="
-当前大数据技术的基础是由( )首先提出的A.&amp;nbsp; 微软B.&amp;nbsp; 谷歌C.  百度D.  阿里巴巴
+当前大数据技术的基础是由( )首先提出的A.  微软B.  谷歌C.  百度D.  阿里巴巴
 
 查看答案
-解析： Google在大数据方面的技术，均是以发表论文的形式对外公开的，尽管其没有对外开源&amp;gt;系统实现代码，">
+解析： Google在大数据方面的技术，均是以发表论文的形式对外公开的，尽管其没有对外开源&amp;gt;系统实现代码，但这些论文直接带动了">
     <meta http-equiv="X-UA-Compatible" content="IE=edge">
     <meta name="viewport" content="width=device-width, initial-scale=1.0, user-scalable=no">
     <meta name="renderer" content="webkit|ie-stand|ie-comp">
@@ -378,22 +378,22 @@ <h1 class="description center-align post-title">大数据技术基础小测一</
         <div class="card-content article-card-content">
             <div id="articleContent">
                 <ol>
-<li><p>当前大数据技术的基础是由( )首先提出的<br>A.&nbsp; 微软<br>B.&nbsp; 谷歌<br>C.  百度<br>D.  阿里巴巴</p>
+<li><p>当前大数据技术的基础是由( )首先提出的<br>A.  微软<br>B.  谷歌<br>C.  百度<br>D.  阿里巴巴</p>
 <details>
 <summary>查看答案</summary>
 解析： Google在大数据方面的技术，均是以发表论文的形式对外公开的，尽管其没有对外开源&gt;系统实现代码，但这些论文直接带动了大数据技术的发展，尤其为大数据开源技术的发展指明了方向。对外公开的技术包括GFS、BigTable、MapReduce、Chubby、Pregel等。
 </details>
 </li>
-<li><p>在数据度量中，1ZB是多大（ ）<br>A.  10^15<br>B.&nbsp;&nbsp;10^18<br>C.&nbsp;&nbsp;10^21<br>D.&nbsp;&nbsp;10^24</p>
+<li><p>在数据度量中，1ZB是多大（ ）<br>A.  10^15<br>B.  10^18<br>C.  10^21<br>D.  10^24</p>
 <details>
 <summary>查看答案</summary>
 解析：数据单位按照从小到大依次是TB,PB,EB,ZB,YB,分别是10^12,10^15,10^18,10^21,10^24
 </details>
 </li>
-<li><p>网页、视频、图片、用户行为日志属于哪种数据（ ）<br>A.  结构化数据<br>B.&nbsp;&nbsp;非结构化数据<br>C.&nbsp;&nbsp;都不是<br>D.&nbsp;&nbsp;都是</p>
+<li><p>网页、视频、图片、用户行为日志属于哪种数据（ ）<br>A.  结构化数据<br>B.  非结构化数据<br>C.  都不是<br>D.  都是</p>
 <details>
 <summary>查看答案</summary>
-解析：<b>非结构化数据</b>指数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。<b>结构化数据</b>指关系模型数据，即<b>以关系数据库表形式管理的数据</b>，结合到典型场景中更容易理解，比如企业ERP(Enterprise resource Planning)、OA(Office Automation)、HR(Human Resource)里的数据。 &nbsp;
+解析：<b>非结构化数据</b>指数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。如word、pdf、ppt及各种格式的图片、视频等。<b>结构化数据</b>指关系模型数据，即<b>以关系数据库表形式管理的数据</b>，结合到典型场景中更容易理解，比如企业ERP(Enterprise resource Planning)、OA(Office Automation)、HR(Human Resource)里的数据。  
 </details>
 </li>
 <li><p>下列不属于大数据的4V特征的是（ ）<br>A.  Volume（量大）<br>B.  Velocity（快速化）<br>C.  Variety（多样化）<br>D.  Value（价值密度高）</p>
@@ -402,7 +402,7 @@ <h1 class="description center-align post-title">大数据技术基础小测一</
 解析：大数据具备价值密度低、商业特征高的特征。大数据的4V特征：量大（Volume） 多样化（Variety） 快速化（Velocity） 价值密度低（Value）
 </details>
 </li>
-<li><p>MapReduce,Spark属于哪种计算模式（ ）<br>A.  批处理计算<br>B.  流计算<br>C.&nbsp;&nbsp;图计算<br>D.&nbsp;&nbsp;查询分析计算</p>
+<li><p>MapReduce,Spark属于哪种计算模式（ ）<br>A.  批处理计算<br>B.  流计算<br>C.  图计算<br>D.  查询分析计算</p>
 <details>
 <summary>查看答案</summary>
 解析：
@@ -436,15 +436,13 @@ <h1 class="description center-align post-title">大数据技术基础小测一</
 解析：随着大数据开源技术的快速发展，目前开源社区已经积累了比较完整的大数据技术栈，应用最广泛的是以Hadoop与Spark为核心的生态系统，整个大数据技术栈涉及<b>数据收集、数据存储、资源管理与服务协调、计算引擎和数据分析这五个层级</b>。
 </details>
 </li>
-<li><p>下面哪一项不属于Hadoop与Spark开源大数据技术栈的数据存储层的技术（ ）<br>A.  HDFS<br>B.  Kudu<br>C.  ZooKeeper<br>D.  HBase</p>
-<details>
-<summary>查看答案</summary>
-解析：数据存储层主要由分布式文件系统（面向文件的存储）和分布式数据库（面向行/列的存储）构成。</details></li>
+<li><p>下面哪一项不属于Hadoop与Spark开源大数据技术栈的数据存储层的技术（ ）<br>A.  HDFS<br>B.  Kudu<br>C.  ZooKeeper<br>D.  HBase<br></p><details><br><summary>查看答案</summary><br>解析：数据存储层主要由分布式文件系统（面向文件的存储）和分布式数据库（面向行/列的存储）构成。</details><p></p>
+</li>
 </ol>
 <ul>
 <li>HDFS：Hadoop分布式文件系统，具有良好的扩展性与容错性等优点</li>
 <li>HBase：构建在HDFS之上的分布式数据库，允许用户存储结构化与半结构化的数据</li>
-<li>Kudu：分布式列式存储数据库，允许用户存储结构化数据，支持行无限扩展以及数据随机查找与更新</li>
+<li>Kudu：分布式列式存储数据库，允许用户存储结构化数据，支持行无限扩展以及数据随机查找与更新<br>&lt;/details&gt;</li>
 </ul>
 
 
@@ -844,7 +842,7 @@ <h1 class="description center-align post-title">大数据技术基础小测一</
             <br>
 
                 &nbsp;<i class="fas fa-chart-area"></i>&nbsp;站点总字数:&nbsp;<span
-                        class="white-color">45.8k</span>
+                        class="white-color">45.7k</span>