CDCR配置

2018-01-11 10:43 更新

CDCR配置

源和目标配置在数据中心处于不同集群的情况下有所不同。这里的“集群”是指单独的ZooKeeper集合控制不相交的Solr实例。这些数据中心是否在物理上是分开的,对于这个讨论来说并不重要。

源配置

下面是一个源代码配置文件的例子,在solrconfig.xml部分。<replica>部分的存在导致CDCR将此群集用作源,并且不应出现在目标集合中。有关每个设置的详细信息,请见以下两个示例:

<requestHandler name="/cdcr" class="solr.CdcrRequestHandler">
  <lst name="replica">
    <str name="zkHost">10.240.18.211:2181,10.240.18.212:2181</str>
    <!--
    If you have chrooted your Solr information at the target you must include the chroot, for example:
    <str name="zkHost">10.240.18.211:2181,10.240.18.212:2181/solr</str>
    -->
    <str name="source">collection1</str>
    <str name="target">collection1</str>
  </lst>

  <lst name="replicator">
    <str name="threadPoolSize">8</str>
    <str name="schedule">1000</str>
    <str name="batchSize">128</str>
  </lst>

  <lst name="updateLogSynchronizer">
    <str name="schedule">1000</str>
  </lst>
</requestHandler>

<!-- Modify the <updateLog> section of your existing <updateHandler>
     in your config as below -->
<updateHandler class="solr.DirectUpdateHandler2">
  <updateLog class="solr.CdcrUpdateLog">
    <str name="dir">${solr.ulog.dir:}</str>
    <!--Any parameters from the original <updateLog> section -->
  </updateLog>
</updateHandler>

目标配置

下面是一个典型的目标配置。

目标实例必须配置特定于CDCR的更新处理器链。更新处理器链必须包含CdcrUpdateProcessorFactory。此处理器的任务是确保附加到来自CDCR源SolrCloud的更新请求的版本号被重用,并且不被目标覆盖。正确配置的目标配置与此类似。

<requestHandler name="/cdcr" class="solr.CdcrRequestHandler">
  <lst name="buffer">
    <str name="defaultState">disabled</str>
  </lst>
</requestHandler>

<requestHandler name="/update" class="solr.UpdateRequestHandler">
  <lst name="defaults">
    <str name="update.chain">cdcr-processor-chain</str>
  </lst>
</requestHandler>

<updateRequestProcessorChain name="cdcr-processor-chain">
  <processor class="solr.CdcrUpdateProcessorFactory"/>
  <processor class="solr.RunUpdateProcessorFactory"/>
</updateRequestProcessorChain>

<!-- Modify the <updateLog> section of your existing <updateHandler> in your
    config as below -->
<updateHandler class="solr.DirectUpdateHandler2">
  <updateLog class="solr.CdcrUpdateLog">
    <str name="dir">${solr.ulog.dir:}</str>
    <!--Any parameters from the original <updateLog> section -->
  </updateLog>
</updateHandler>

配置详情

配置细节,默认和选项如下:

副本元素

可以将CDCR配置为将更新请求转发到一个或多个目标集合。目标集合是通过“副本”列表定义的,如下所示:

  • zkHost

    目标SolrCloud的ZooKeeper的主机地址。通常这是Target ZooKeeper集合中每个节点的逗号分隔列表。该参数是必需的。

  • Source

    要复制的源SolrCloud上集合的名称。该参数是必需的。

  • Target

    要将更新转发到的Target SolrCloud上的集合的名称。该参数是必需的。

Replicator元素

CDC Replicator是负责将更新转发到副本的组件。Replicator将监视Source集合的更新日志,并将任何新的更新转发到Target集合。

Replicator使用固定的线程池并行地将更新转发到多个副本。如果配置了多个副本,则一个线程将以循环方式每次从一个副本转发一批更新。Replicator可以使用“复制器”列表进行配置,如下所示:

  • threadPoolSize

    用于转发更新的线程数。建议每个副本一个线程。默认是2

  • schedule

    监视更新日志的延迟时间(以毫秒为单位)。默认是10

  • batchSize

    在一个批处理中发送的更新数。最佳大小取决于文档的大小。大批量的大文件可能会显着增加您的内存使用量。默认是128

updateLogSynchronizer元素

Expert:非leader节点需要不时地将其更新日志与其leader节点同步,以清除弃用的事务日志文件。默认情况下,每分钟执行一次这样的同步过程。可以使用“updateLogSynchronizer”列表修改同步计划,如下所示:

  • schedule

    同步更新日志的延迟时间(以毫秒为单位)。默认是60000

Buffer元素

缓冲更新时,更新日志将无限期地存储所有更新。建议在正常操作期间禁用源和目标群集上的缓冲,因为启用缓冲时,更新日志将无限制地增长。保持启用缓冲用于特殊维护期间。启动时可以使用“缓冲区”列表和参数“defaultState”禁用缓冲区,如下所示:

  • defaultState

    启动时缓冲区的状态。默认是enabled

缓冲仅适用于维护窗口

缓冲旨在增加维护窗口。应该牢记以下几点:

  • 启用缓冲时,更新日志将无限制地增长; 他们将永远不会被清除。

  • 在正常操作期间,如果目标数据中心不可用,则更新日志将在源数据中心自动生成;没有必要为CDCR启用缓冲来处理常规的网络中断。

    • 因此,建议在源数据中心监视磁盘使用情况,作为目标数据中心正在接收更新的额外检查。

  • 不应在目标数据中心启用缓冲, 因为更新日志将不受限制地累积。

  • 如果启用了缓冲功能,那么禁用更新日志时,将更新日志的内容发送到目标数据中心。这个过程可能需要一些时间。

    • 在将新的更新发送到源数据中心之前,不会触发更新日志清理。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号