cdot

强化学习-学习笔记3 | 策略学习2022-07-05 12:00:06

Policy-Based Reinforcement Learning. 策略学习。本讲用一个神经网络来近似 policy 函数，即 Policy Network，策略网络。 3. 策略学习 3.1 策略函数我们回顾一下策略函数 Policy Function ：策略函数 $\pi(a | s)$是一个概率密度函数（PDF），输入时当前状态s，输出为一个概率分布，表征
数论2022-07-05 09:32:46

目录OI Summary —— Maths扩展欧几里德(exgcd)模板题模板模板题变形求法模板乘法逆元定义模板题费马小定理及求法阶乘线性求法模板 (阶乘线性求法)卢卡斯(Lucas)定理模板题求法模板中国剩余定理(CRT)模板题求法模板拉格朗日插值模板题求法模板大步小步(BSGS)模板题求法模板积性函
强化学习-学习笔记2 | 价值学习2022-07-04 19:02:58

Value-Based Reinforcement Learning : 价值学习 2. 价值学习 2.1 Deep Q-Network DQN 其实就是用一个神经网络来近似 $Q*$ 函数。 agent 的目标是打赢游戏，如果用强化学习的语言来讲，就是在游戏结束的时候拿到的奖励总和 Rewards 越大越好。 a. Q-star Function 问题：假设知道了
[题解][YZOJ7249]Curiosity2022-07-01 12:34:20

简要题意一个 $K$ 面骰子扔 $N$ 次，记 $i$ 的出现次数为 $a_i$，求： \[E[\ \prod_{i=1}^La_i^F\ ] \]$0<N,K\le 10^9,0<F\le 1000,0<L\cdot F\le 50000,1\le L\le K$. 解题思路首先不难写出单个数贡献的生成函数 $A(x)=\sum\dfrac{i^Fx^i}{i!}$，那么前 $L$ 个数贡献的
从Hadder看蛋白质分子中的加氢算法2022-06-28 15:33:52

技术背景 PDB（Protein Data Bank）是一种最常用于存储蛋白质结构的文件。而我们在研究蛋白质构象时，往往更多的是考虑其骨架，因此在很多pdb文件中直接去掉了氢原子。但是在我们构建蛋白质力场时，又需要用到这些氢原子。因此这个流程就变成了，在预测蛋白质构象时，不考虑氢原子，然后在力场构
CF Global Round 21 题解（CDEG）2022-06-26 12:01:24

C 把 $a,b$ 全拆开然后比较即可（因为分裂和合并是互逆的）注意开 long long . using namespace std; typedef long long ll; typedef pair<ll, ll> pii; int n, m, k; vector<pii> a, b, c, d; inline void solve() { a.clear(); b.clear(); c.clear(); d.clear(); scanf("%d%d
有限小数2022-06-26 11:03:20

有限小数给定三个整数 $p,q,b$，请你计算十进制表示下的 $p/q$ 的结果在 $b$ 进制下是否为有限小数。输入格式第一行包含整数 $T$，表示共有 $T$ 组测试数据。每组数据占一行，包含三个整数 $p,q,b$。输出格式每组数据输出一行结果，如果 $p/q$ 的结果在 $b$ 进制下是有限小数，则输出
行列式与高斯消元基础2022-06-23 10:35:26

一、二元线性方程与二阶行列式（一）二元线性方程的解设有方程：　　　　可看出$x_1,x_2$的分母相同，由$x$的四个系数组成而两数分子由三对系数组合构成（二）行列式引进一个符号表示“四个数分成两对相乘再相减” 其中，$a_{ij}(i = 1,2 ; j = 1,2)$称为行列式中的元素，且：　　i 为
[Contest on 2022.6.20] (2022-06-21 22:33:48

$\cal T_1$ 益智游戏 Description 一个 $n × n$ 棋盘的每个格子被继续划分为了一个 $2 × 2$ 的小棋盘，每个小棋盘中放了一个 $1 × 2$ 的多米诺骨牌。每个小棋盘有个修改代价，你需要花费最小的修改代价使得所有填了多米诺骨牌的小格子中心之间的距离不为 $\sqrt 2$.
[AcWing 6] 多重背包问题 III2022-06-18 22:37:26

点击查看代码单调队列优化 $f[i][j] = max(f[i-1][j],f[i-1][j-v]+w,f[i-1][j-2 \cdot v]+2 \cdot w,\cdots,f[i-1][j-s \cdot v]+s \cdot w)$ \(f[i][j-v] = max(f[i-1][j-v],f[i-1][j-2 \cdot v]+ w,\cdots,f[i-1][j-s \cdot v]+s \cdot w,f[i-1][j-3 \cdot v] + 2
[AcWing 1023] 买书2022-06-18 14:04:08

点击查看代码 #include<iostream> using namespace std; const int N = 110, M = 10010; int m; int v[4] = {10, 20, 50, 100}; int f[M]; int main() { cin >> m; f[0] = 1; for (int i = 0; i < 4; i ++) for (int j = v[i]; j <= m; j ++) f[j]
NKOJ1236 排队2022-06-18 11:34:20

题目大意元元曾经是班长。在校运动会上，元元的班要进行队列表演。元元要选出 $2\times n$ 名同学编队，每人都被编上一个号，每一个从 $1$ 到 $n$ 的自然数都被某 $2$ 名同学佩戴，现在要求将他们排成一列，使两个编号为 $1$ 的同学中间恰好夹 $1$ 名同学，两个编号为 $2$ 的
$\text{OI Maths Summary - by txn}$2022-06-18 11:02:36

$\text{This blog is written by txn, not me. ORZ}$ OI Summary —— Maths $\text{by sro TXN orz}$ $\LaTeX$ 扩展欧几里德(exgcd) 模板题给定 $a,b,c$ 求不定方程 $ax+by=c$ 整数解模板 $ax+by=c$ 有解的必要条件是 $c\equiv 0 \pmod{gcd(a,b)}$ inline void
NC25043 [USACO 2007 Jan S]Protecting the Flowers2022-06-16 22:04:56

NC25043 [USACO 2007 Jan S]Protecting the Flowers 题目题目描述 Farmer John went to cut some wood and left $N (2 ≤ N ≤ 100,000)$ cows eating the grass, as usual. When he returned, he found to his horror that the cluster of cows was in his garden eating his
[JSOI2019] 神经网络2022-06-13 16:01:22

一、题目点此看题二、解法有一个神奇的题意转化：我们把每一棵树划分成若干条链，因为不同的树任意两点之间都有边，所以我们把这些链任意连接就形成哈密顿回路，要求是相邻的链必须来自不同的树。首先我们考察把树划分成 $i$ 条链的方案数 $f_i$，可以直接树背包，在确定一条链并且这
[题解][YZOJ50074] 小 C 的岛屿2022-05-31 16:33:41

仅仅是对 $O(n^4)$ 做法的一个记录。简要题意有 $N$ 座岛屿，初始时没有边。每座岛屿都有一个概率值 $p_i$ 和一个大小为 $s_i$ 友好列表 $A_i$ 。小 $c$ 站在 $1$ 号岛屿，依次执行以下操作: $(1)$ 设现在在岛屿 $x$，有 $p_x$ 的概率产生一条图中尚未存在的
#22 CF913F2022-05-30 15:31:48

Strongly Connected Tournament 题目描述点此看题解法设 $g[i]$ 表示 $i$ 个点的竞赛图，解决它的比赛总场数期望值。转移考虑一次定向后取出入度为 $0$ 的那个强连通块，设这个强连通块大小为 $j$，就可以得到子问题 $g[j]$ 和 $g[i-j]$ 那么如何规划那个入度为 $0$
#21 CF830D2022-05-29 10:00:44

Singer House 题目描述点此看题解法同时路径计数问题，本题可以和环这题对比起来理解。基本方法都是一样的，首先考虑计数顺序应该是自底向上的树形 $dp$，但是计数顺序却和我们考虑的状态——有向路径产生了冲突，因为按照这样的计数顺序，有向路径从某个点来看，可能就是若干个分散
DP优化2022-05-18 21:02:19

一、单调队列优化很简单，对于 $dp_i=\min (A_j+B_i)$ 的状态转移方程，可以丢进单调队列，时间复杂度 $O(n)$。二、斜率优化如果是对于 $dp_i=\min(A_i\cdot B_j+C_i+D_j)$ 的状态转移方程，就单调队列不了了，因为有一项同时存在 $i$ 和 $j$。我们考虑把不和 $j$ 有关的都
[记录] 生成函数习题2022-05-12 21:33:31

主要是学习生成函数怎么用，所以可能会省略此外的过程。 [YZOJ7198] 暴政之王初始有一个 $1,2,3\dots,n$ 的排列，再随机一个排列，将初始排列根据这个置换 $m$ 次。现在给出最终结果，问有多少排列可能是随机出的那个排列。 $n\le 10^5,m\le10^9$，模数为 $10^9+7$。于是推
[AcWing 875] 快速幂2022-05-09 13:33:17

复杂度 $ O(log(k)) $ （k 是指数）总体复杂度 $ log(2 \times 10^{9}) = 9 \times log(20) \approx 40 $ 点击查看代码 #include<iostream> using namespace std; typedef long long LL; LL qmi(int a, int b, int p) { LL res = 1; while (b) { if (b & 1)
NC14683 储物点距离2022-05-09 03:01:24

NC14683 储物点距离题目题目描述一个数轴，每一个储物点会有一些东西，同时它们之间存在距离。每次给个区间 $[l,r]$ ,查询把这个区间内所有储物点的东西运到另外一个储物点的代价是多少？比如储物点 $i$ 有 $x$ 个东西，要运到储物点 $j$ ，代价为 $x \cdot dist( i , j )$
数学杂谈 #172022-05-02 19:33:32

FFT 的若干优化针对 FFT 的计算优化的出发点一般都是充分利用虚部空间。因为没有优化的计算，通常而言仅仅是实部给出了最终结果；而如果我们可以用好虚部，理论上我们至多可以减少一半左右的 FFT 计算——从“一个一次”到“两个一次”。「三次」变「两次」这个优化常常用在单纯的多
微分不等式证明2022-05-01 23:34:20

题型一利用单调性证明不等式一、直接构造函数例1. \[证明:x\cdot\ln\frac{1+x}{1-x}+\cos x\geq1+\frac{1}{2}x^2,其中-1<x<1 \]【解】： \[直接令f(x)=x\cdot\ln\frac{1+x}{1-x}+\cos x-1-\frac{1}{2}x^2\\ 注意到x的范围是(-1,1),是一个对称区间,而f(x)中的\cos x和x^2都是偶的
广义均值不等式的证明2022-05-01 10:03:55

广义均值不等式（默认数域为 $\mathbb R$）： $\forall a_i>0$，$r_1,r_2\neq 0$，$r_1<r_2$，均有 \[{\sum_{i=1}^n}^{\frac{1}{r_1}}\frac{1}{n}a_i^{r_1}\le{\sum_{i=1}^n}^{\frac{1}{r_2}}\frac{1}{n}a_i^{r_2} \]首先证明 $n=2$ 时的情况。令 \(c=\frac{a_1}{a

首页 < 1 2 3 4 5 6 7 8 > 尾页

ICode9

强化学习-学习笔记3 | 策略学习2022-07-05 12:00:06

数论2022-07-05 09:32:46

强化学习-学习笔记2 | 价值学习2022-07-04 19:02:58

[题解][YZOJ7249]Curiosity2022-07-01 12:34:20

从Hadder看蛋白质分子中的加氢算法2022-06-28 15:33:52

CF Global Round 21 题解（CDEG）2022-06-26 12:01:24

有限小数2022-06-26 11:03:20

行列式与高斯消元基础2022-06-23 10:35:26

[Contest on 2022.6.20] (2022-06-21 22:33:48

[AcWing 6] 多重背包问题 III2022-06-18 22:37:26

[AcWing 1023] 买书2022-06-18 14:04:08

NKOJ1236 排队2022-06-18 11:34:20

$\text{OI Maths Summary - by txn}$2022-06-18 11:02:36

NC25043 [USACO 2007 Jan S]Protecting the Flowers2022-06-16 22:04:56

[JSOI2019] 神经网络2022-06-13 16:01:22

[题解][YZOJ50074] 小 C 的岛屿2022-05-31 16:33:41

#22 CF913F2022-05-30 15:31:48

#21 CF830D2022-05-29 10:00:44

DP优化2022-05-18 21:02:19

[记录] 生成函数习题2022-05-12 21:33:31

[AcWing 875] 快速幂2022-05-09 13:33:17

NC14683 储物点距离2022-05-09 03:01:24

数学杂谈 #172022-05-02 19:33:32

微分不等式证明2022-05-01 23:34:20

广义均值不等式的证明2022-05-01 10:03:55