Policies.OCUCBH module¶

The Optimally Confident UCB (OC-UCB) policy for bounded stochastic bandits. Initial version (horizon-dependent).

Reference: [Lattimore, 2015](https://arxiv.org/pdf/1507.07880.pdf)
There is also a horizon-independent version, OCUCB.OCUCB, from [Lattimore, 2016](https://arxiv.org/pdf/1603.08661.pdf).

Policies.OCUCBH.PSI = 2¶: Default value for parameter \(\psi \geq 2\) for OCUCBH.

Policies.OCUCBH.ALPHA = 4¶: Default value for parameter \(\alpha \geq 2\) for OCUCBH.

class Policies.OCUCBH.OCUCBH(nbArms, horizon=None, psi=2, alpha=4, lower=0.0, amplitude=1.0)[source]¶

The Optimally Confident UCB (OC-UCB) policy for bounded stochastic bandits. Initial version (horizon-dependent).

__init__(nbArms, horizon=None, psi=2, alpha=4, lower=0.0, amplitude=1.0)[source]¶

New generic index policy.

computeIndex(arm)[source]¶

Compute the current index, at time t and after \(N_k(t)\) pulls of arm k:

\[I_k(t) = \frac{X_k(t)}{N_k(t)} + \sqrt{\frac{\alpha}{N_k(t)} \log(\frac{\psi T}{t})}.\]

class Policies.OCUCBH.AOCUCBH(nbArms, horizon=None, lower=0.0, amplitude=1.0)[source]¶

The Almost Optimally Confident UCB (OC-UCB) policy for bounded stochastic bandits. Initial version (horizon-dependent).

__init__(nbArms, horizon=None, lower=0.0, amplitude=1.0)[source]¶

New generic index policy.

computeIndex(arm)[source]¶: Compute the current index, at time t and after \(N_k(t)\) pulls of arm k:

\[I_k(t) = \frac{X_k(t)}{N_k(t)} + \sqrt{\frac{2}{N_k(t)} \log(\frac{T}{N_k(t)})}.\]