d3/d8c/learning__rate_8hpp_source.html

 // Copyright (c) 2014-2023, Lawrence Livermore National Security, LLC.
 // Produced at the Lawrence Livermore National Laboratory.
 // Written by the LBANN Research Team (B. Van Essen, et al.) listed in
 // the CONTRIBUTORS file. <lbann-dev@llnl.gov>
 //
 // LLNL-CODE-697807.
 // All rights reserved.
 //
 // This file is part of LBANN: Livermore Big Artificial Neural Network
 // Toolkit. For details, see http://software.llnl.gov/LBANN or
 // https://github.com/LLNL/LBANN.
 //
 // Licensed under the Apache License, Version 2.0 (the "Licensee"); you
 // may not use this file except in compliance with the License.  You may
 // obtain a copy of the License at:
 //
 // http://www.apache.org/licenses/LICENSE-2.0
 //
 // Unless required by applicable law or agreed to in writing, software
 // distributed under the License is distributed on an "AS IS" BASIS,
 // WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or
 // implied. See the License for the specific language governing
 // permissions and limitations under the license.
 //
 // lbann_learning_rate .hpp .cpp - Callback hooks for learning rate schedules

 #ifndef LBANN_CALLBACKS_LEARNING_RATE_HPP_INCLUDED
 #define LBANN_CALLBACKS_LEARNING_RATE_HPP_INCLUDED

 #include "lbann/callbacks/callback.hpp"
 #include <unordered_map>
 #include <unordered_set>

 namespace lbann {

 // Forward declarations
 class optimizer;

 namespace callback {

 // Different schedules should inherit from learning_rate.

 class learning_rate : public callback_base
 {
 public:
   learning_rate();
   learning_rate(const learning_rate&) = default;
   learning_rate& operator=(const learning_rate&) = default;
   learning_rate(std::vector<std::string> weights_names);
   void setup(model* m) override;
   void on_epoch_end(model* m) override;

   using callback_base::on_backward_prop_end;
   void on_backward_prop_end(model* m) override;

 protected:
   std::vector<std::string> const& get_weights_names() const
   {
     return m_weights_names;
   }

 protected:
   virtual float global_schedule(model* m)
   {
     return get_current_global_learning_rate();
   }

   virtual float optimizer_schedule(model* m, optimizer& opt);

   const std::unordered_set<weights*>& get_weights() const noexcept
   {
     return m_weights;
   }

   static float get_current_global_learning_rate() noexcept
   {
     return m_cur_global_lr;
   }

   static void update_global_learning_rate(float rate) noexcept
   {
     m_cur_global_lr = rate;
   }

 private:
   static float m_cur_global_lr;

   std::vector<std::string> m_weights_names;

   std::unordered_set<weights*> m_weights;
 };

 class step_learning_rate : public learning_rate
 {
 public:
   step_learning_rate(size_t step, float amt);
   step_learning_rate(size_t step,
                      float amt,
                      std::vector<std::string> weights_names);
   step_learning_rate(const step_learning_rate&) = default;
   step_learning_rate& operator=(const step_learning_rate&) = default;
   step_learning_rate* copy() const override
   {
     return new step_learning_rate(*this);
   }
   std::string name() const override { return "step learning rate"; }

 protected:
   float global_schedule(model* m) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;

   size_t m_step;
   float m_amt;
 };

 // Builder function
 std::unique_ptr<callback_base> build_step_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 class set_learning_rate : public learning_rate
 {
 public:
   set_learning_rate(size_t step, float val);
   set_learning_rate(size_t step,
                     float val,
                     std::vector<std::string> weights_names);
   set_learning_rate(const set_learning_rate&) = default;
   set_learning_rate& operator=(const set_learning_rate&) = default;
   set_learning_rate* copy() const override
   {
     return new set_learning_rate(*this);
   }
   std::string name() const override { return "step learning rate"; }

 protected:
   float global_schedule(model* m) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;
   size_t m_step;
   float m_val;
 };

 // Builder function
 std::unique_ptr<callback_base> build_set_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 class adaptive_learning_rate : public learning_rate
 {
 public:
   adaptive_learning_rate(size_t patience, float amt);
   adaptive_learning_rate(size_t patience,
                          float amt,
                          std::vector<std::string> weights_names);
   adaptive_learning_rate(const adaptive_learning_rate&) = default;
   adaptive_learning_rate& operator=(const adaptive_learning_rate&) = default;
   adaptive_learning_rate* copy() const override
   {
     return new adaptive_learning_rate(*this);
   }
   std::string name() const override { return "adaptive learning rate"; }

 protected:
   float global_schedule(model* m) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;

   size_t m_patience;
   float m_amt;
   size_t m_cur_epoch = std::numeric_limits<size_t>::max();
   EvalType m_last_score = std::numeric_limits<EvalType>::max();
   size_t m_wait = 0;
   bool m_adjust_learning_rate = false;
 };

 // Builder function
 std::unique_ptr<callback_base> build_adaptive_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 class drop_fixed_learning_rate : public learning_rate
 {
 public:
   drop_fixed_learning_rate(std::vector<size_t> drop_epochs, float amt);
   drop_fixed_learning_rate(std::vector<size_t> drop_epochs,
                            float amt,
                            std::vector<std::string> weights_names);
   drop_fixed_learning_rate(const drop_fixed_learning_rate&) = default;
   drop_fixed_learning_rate&
   operator=(const drop_fixed_learning_rate&) = default;
   drop_fixed_learning_rate* copy() const override
   {
     return new drop_fixed_learning_rate(*this);
   }
   std::string name() const override { return "drop fixed learning rate"; }

 protected:
   float global_schedule(model* m) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;

   float m_amt;
   std::vector<size_t> m_drop_epochs;
 };

 // Builder function
 std::unique_ptr<callback_base>
 build_drop_fixed_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 class linear_growth_learning_rate : public learning_rate
 {
 public:
   linear_growth_learning_rate(float target, size_t num_epochs);
   linear_growth_learning_rate(float target, size_t num_epochs, size_t delay);
   linear_growth_learning_rate(float target,
                               size_t num_epochs,
                               size_t delay,
                               std::vector<std::string> weights_names);
   linear_growth_learning_rate(const linear_growth_learning_rate&) = default;
   linear_growth_learning_rate&
   operator=(const linear_growth_learning_rate&) = default;
   linear_growth_learning_rate* copy() const override
   {
     return new linear_growth_learning_rate(*this);
   }
   void setup(model* m) override;
   std::string name() const override { return "linear growth learning rate"; }

 protected:
   float global_schedule(model* m) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;

   float m_base_lr;
   float m_target;
   float m_inc;
   size_t m_num_epochs;
   size_t m_delay;
 };

 // Builder function
 std::unique_ptr<callback_base>
 build_linear_growth_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 class poly_learning_rate : public learning_rate
 {
 public:
   poly_learning_rate(double p, size_t n_epochs, size_t max_iter);
   poly_learning_rate(double p,
                      size_t n_epochs,
                      size_t max_iter,
                      double endl_r,
                      std::vector<std::string> weights_names);
   poly_learning_rate(const poly_learning_rate&) = default;
   poly_learning_rate& operator=(const poly_learning_rate&) = default;
   poly_learning_rate* copy() const override
   {
     return new poly_learning_rate(*this);
   }
   void setup(model* m) override;
   std::string name() const override { return "poly learning rate"; }

 protected:
   float global_schedule(model* m) override;
   float optimizer_schedule(model* m, optimizer& opt) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;

   double m_p;
   size_t m_num_epochs;
   size_t m_max_iter;
   float m_start_lr;
   float m_end_lr;
 };

 // Builder function
 std::unique_ptr<callback_base> build_poly_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 class optimizerwise_adaptive_learning_rate : public learning_rate
 {
 public:
   optimizerwise_adaptive_learning_rate(float scale);
   optimizerwise_adaptive_learning_rate(float scale,
                                        std::vector<std::string> weights_names);
   optimizerwise_adaptive_learning_rate(
     const optimizerwise_adaptive_learning_rate&) = default;
   optimizerwise_adaptive_learning_rate&
   operator=(const optimizerwise_adaptive_learning_rate&) = default;
   optimizerwise_adaptive_learning_rate* copy() const override
   {
     return new optimizerwise_adaptive_learning_rate(*this);
   }
   std::string name() const override
   {
     return "optimizerwise adaptive learning rate";
   }

 protected:
   float optimizer_schedule(model* m, optimizer& opt) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;

   float m_scale;
 };

 // Builder function
 std::unique_ptr<callback_base>
 build_optimizerwise_adaptive_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 class cosine_decay_learning_rate : public learning_rate
 {
 public:
   cosine_decay_learning_rate(double lr_max,
                              double lr_min,
                              size_t decay_steps,
                              double initial_learning_rate = 0.0,
                              size_t warmup_steps = 0);
   cosine_decay_learning_rate(double lr_max,
                              double lr_min,
                              size_t decay_steps,
                              double initial_learning_rate,
                              size_t warmup_steps,
                              std::vector<std::string> weight_names);
   cosine_decay_learning_rate(const cosine_decay_learning_rate&) = default;
   cosine_decay_learning_rate&
   operator=(const cosine_decay_learning_rate&) = default;
   cosine_decay_learning_rate* copy() const override
   {
     return new cosine_decay_learning_rate(*this);
   }
   void setup(model* m) override;
   std::string name() const override { return "cosine decay learning rate"; }

 protected:
   float global_schedule(model* m) override;
   float optimizer_schedule(model* m, optimizer& opt) override;

 private:
   void write_specific_proto(lbann_data::Callback& proto) const final;

   float m_lr_max;
   float m_lr_min;
   size_t m_decay_steps;
   float m_initial_lr;
   size_t m_warmup_steps;
 };

 // Builder function
 std::unique_ptr<callback_base>
 build_cosine_decay_learning_rate_callback_from_pbuf(
   const google::protobuf::Message&,
   std::shared_ptr<lbann_summary> const&);

 } // namespace callback
 } // namespace lbann

 #endif // LBANN_CALLBACKS_LEARNING_RATE_HPP_INCLUDED
lbann::callback::poly_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:365

lbann::callback::learning_rate::update_global_learning_rate
static void update_global_learning_rate(float rate) noexcept
Definition: learning_rate.hpp:102

lbann::callback::build_poly_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_poly_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback::set_learning_rate::m_val
float m_val
Definition: learning_rate.hpp:187

lbann::callback::learning_rate::learning_rate
learning_rate()

lbann::callback::build_cosine_decay_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_cosine_decay_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback::cosine_decay_learning_rate::m_warmup_steps
size_t m_warmup_steps
Number of warmup steps.
Definition: learning_rate.hpp:491

lbann::callback::cosine_decay_learning_rate::copy
cosine_decay_learning_rate * copy() const override
Definition: learning_rate.hpp:467

lbann::callback::adaptive_learning_rate::m_patience
size_t m_patience
Definition: learning_rate.hpp:226

lbann::callback::adaptive_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:216

lbann::callback::poly_learning_rate
Definition: learning_rate.hpp:349

lbann::callback::learning_rate::get_weights_names
std::vector< std::string > const  & get_weights_names() const
Definition: learning_rate.hpp:67

lbann::callback::build_adaptive_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_adaptive_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback::drop_fixed_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:265

lbann::callback::linear_growth_learning_rate::m_target
float m_target
Target learning rate to reach.
Definition: learning_rate.hpp:328

lbann::callback::learning_rate::operator=
learning_rate & operator=(const learning_rate &)=default

lbann::callback::learning_rate::m_weights_names
std::vector< std::string > m_weights_names
Definition: learning_rate.hpp:117

lbann::callback::step_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:140

lbann::callback::cosine_decay_learning_rate
Definition: learning_rate.hpp:450

lbann::callback::linear_growth_learning_rate::m_inc
float m_inc
Amount to increase each epoch.
Definition: learning_rate.hpp:330

lbann::callback::cosine_decay_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:472

lbann::callback::linear_growth_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:316

lbann::callback::poly_learning_rate::m_p
double m_p
The exponent to compute new learning rate in poly policy.
Definition: learning_rate.hpp:376

lbann::callback::optimizerwise_adaptive_learning_rate
Definition: learning_rate.hpp:399

lbann::callback::adaptive_learning_rate::m_amt
float m_amt
Definition: learning_rate.hpp:228

lbann::callback::cosine_decay_learning_rate::m_lr_min
float m_lr_min
The learning rate after cosine decay.
Definition: learning_rate.hpp:485

lbann::callback::set_learning_rate
Definition: learning_rate.hpp:163

lbann::callback::cosine_decay_learning_rate::m_decay_steps
size_t m_decay_steps
The number of steps for decay.
Definition: learning_rate.hpp:487

lbann::callback::learning_rate::get_weights
const std::unordered_set< weights * > & get_weights() const noexcept
Definition: learning_rate.hpp:92

lbann::callback::linear_growth_learning_rate::m_delay
size_t m_delay
Number of epochs to delay before starting growth.
Definition: learning_rate.hpp:334

lbann::callback::step_learning_rate::m_amt
float m_amt
Definition: learning_rate.hpp:152

lbann::optimizer
Abstract base class for gradient-based optimization algorithms.
Definition: optimizer.hpp:85

lbann::callback::drop_fixed_learning_rate::copy
drop_fixed_learning_rate * copy() const override
Definition: learning_rate.hpp:261

lbann::callback::step_learning_rate::m_step
size_t m_step
Definition: learning_rate.hpp:150

lbann::callback::build_optimizerwise_adaptive_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_optimizerwise_adaptive_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback_base
Base class for callbacks during training/testing.
Definition: callback.hpp:76

lbann::callback::step_learning_rate
Definition: learning_rate.hpp:126

lbann::callback::learning_rate::optimizer_schedule
virtual float optimizer_schedule(model *m, optimizer &opt)

lbann::callback::learning_rate::m_weights
std::unordered_set< weights * > m_weights
Definition: learning_rate.hpp:120

lbann::callback::learning_rate
Definition: learning_rate.hpp:49

lbann::model
Abstract base class for neural network models.
Definition: model.hpp:83

lbann::callback::adaptive_learning_rate::copy
adaptive_learning_rate * copy() const override
Definition: learning_rate.hpp:212

lbann::callback::learning_rate::global_schedule
virtual float global_schedule(model *m)
Definition: learning_rate.hpp:80

lbann::callback::drop_fixed_learning_rate::m_amt
float m_amt
Amount to decrease the learning rate by.
Definition: learning_rate.hpp:275

lbann::callback::learning_rate::get_current_global_learning_rate
static float get_current_global_learning_rate() noexcept
Definition: learning_rate.hpp:97

lbann::callback::build_set_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_set_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback::learning_rate::on_epoch_end
void on_epoch_end(model *m) override

lbann::callback::linear_growth_learning_rate::copy
linear_growth_learning_rate * copy() const override
Definition: learning_rate.hpp:311

lbann::callback::linear_growth_learning_rate
Definition: learning_rate.hpp:296

lbann::callback_base::write_specific_proto
virtual void write_specific_proto(lbann_data::Callback &proto) const =0
Add callback specific data to prototext.

lbann::callback::build_drop_fixed_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_drop_fixed_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback::set_learning_rate::copy
set_learning_rate * copy() const override
Definition: learning_rate.hpp:172

lbann::callback::cosine_decay_learning_rate::m_initial_lr
float m_initial_lr
The initial learning rate for warmup. Relevant only if m_warmup_steps > 0.
Definition: learning_rate.hpp:489

lbann::callback::drop_fixed_learning_rate::m_drop_epochs
std::vector< size_t > m_drop_epochs
Definition: learning_rate.hpp:280

lbann::callback::cosine_decay_learning_rate::m_lr_max
float m_lr_max
The starting learning rate before decay.
Definition: learning_rate.hpp:483

lbann::callback::drop_fixed_learning_rate
Definition: learning_rate.hpp:247

callback.hpp

lbann::callback_base::on_backward_prop_end
virtual void on_backward_prop_end(model *m)
Called when a model ends backward propagation.
Definition: callback.hpp:152

lbann::callback::poly_learning_rate::m_end_lr
float m_end_lr
The final learning rate.
Definition: learning_rate.hpp:384

lbann::callback::optimizerwise_adaptive_learning_rate::m_scale
float m_scale
Definition: learning_rate.hpp:425

lbann::callback::optimizerwise_adaptive_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:413

lbann::callback::linear_growth_learning_rate::m_num_epochs
size_t m_num_epochs
Number of epochs over which to scale the learning rate.
Definition: learning_rate.hpp:332

lbann::callback::learning_rate::on_backward_prop_end
void on_backward_prop_end(model *m) override

lbann::callback::poly_learning_rate::copy
poly_learning_rate * copy() const override
Definition: learning_rate.hpp:360

lbann::callback::learning_rate::m_cur_global_lr
static float m_cur_global_lr
Definition: learning_rate.hpp:114

lbann::callback::adaptive_learning_rate
Definition: learning_rate.hpp:199

lbann::callback::optimizerwise_adaptive_learning_rate::copy
optimizerwise_adaptive_learning_rate * copy() const override
Definition: learning_rate.hpp:409

lbann::callback::build_step_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_step_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback::poly_learning_rate::m_num_epochs
size_t m_num_epochs
The number of epochs for training.
Definition: learning_rate.hpp:378

lbann::callback::set_learning_rate::name
std::string name() const override
Return this callback&#39;s name.
Definition: learning_rate.hpp:176

lbann::callback::step_learning_rate::copy
step_learning_rate * copy() const override
Definition: learning_rate.hpp:136

lbann::callback::linear_growth_learning_rate::m_base_lr
float m_base_lr
Initial learning rate.
Definition: learning_rate.hpp:326

lbann::EvalType
double EvalType
Definition: base.hpp:189

lbann::callback::set_learning_rate::m_step
size_t m_step
Definition: learning_rate.hpp:185

lbann::callback::poly_learning_rate::m_max_iter
size_t m_max_iter
The maximum number of iterations until which the learning rate changes.
Definition: learning_rate.hpp:380

lbann
Definition: callback_helpers.hpp:32

lbann::callback::learning_rate::setup
void setup(model *m) override

lbann::callback::build_linear_growth_learning_rate_callback_from_pbuf
std::unique_ptr< callback_base > build_linear_growth_learning_rate_callback_from_pbuf(const google::protobuf::Message &, std::shared_ptr< lbann_summary > const &)

lbann::callback::poly_learning_rate::m_start_lr
float m_start_lr
The initial learning rate.
Definition: learning_rate.hpp:382