首页
学习
活动
专区
圈层
工具
发布

硬币与计算机中的“数据”

我就知道,一枚硬币,可以给我确定 1 bit 的信息,可以从正面或反面两种状态之中确定一个结果;两枚硬币,可以从 2x2=4 种状态里面确定一个结果,信息量 2 bit;三枚硬币,就是 2x2x2=2^...英文有26个字母,区分大小写,则有 52 个字符,加上 0-9 10个阿拉伯数字,有 62 个字符,也就是说,我们需要 62 种状态去赋予各个符号的意义。...为了方便表示,我们给硬币正反面各自赋予一个符号,用数字 1 和 0,也是数学里的二进制数: 正面:1 反面:0 然后字母、数字和一部分字符和二进制位(硬币)的对应关系如下。 ?...到这里我们可以明确一个基本的规律: 稳定的“二进制-硬币体系” --> 为各个状态赋予意义 --> 实现现实数据的保存 现实中我们有更复杂的数字、文字、图片、视频和声音,数据多种多样,我们怎么用硬币和硬币之间的组合表示呢...严格意义来说,二进制单位用的单位缩写不应该是 KB,而是 KiB,全称Kibibyte,是 Kilo Binary Byte 的缩写。

91820

信息论的熵

只要有函数型计算器,我们就可以进行以下简单实例的验算。 我们现在不是讨论事物本身的信息量,而是讨论描述事物的文字符号包含的信息量。先讨论比较简单的数字符号。...我们能随意增加大量一辈子也用不到的汉字,来无限地增加每个汉字的信息量?这当然不合理。原来信息量不能无条件地按符号的个数来计算,只有各符号的可能性一样,都等于1/n时才行。数字符号就满足这样的条件。...事实上信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。...事件不同,则他的信息量也不同,所以自信息量是一个随机变量。不能用来表征整个信源的不肯定性。可以用平均自信息量来表征整个信源的不肯定性。 定义信息量为概率的负对数,是很合理的。...如果 p 代表了 X 的机率质量函数(probability mass function),则熵的公式可以表示为: 在这里 b 是对数所使用的底,通常是 2, 自然常数 e,或是10。

98720
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    博客 | 什么是熵?

    他所面临的是在这种情况下可能呢存在的最大程度的不确定性:就像医疗版本的抛硬币试验一样。 对于病人 A 来说,虽然他的情况不容乐观,但是至少他对于是否患病这个问题有最小的不确定性。...当然,还有为什么要用字母H来表示熵?...(表面上这个英文字母H是从希腊大写字母Eta上演变过来的,但实际上为什么采用了字母H来表示,还是有一段复杂的历史的,感兴趣的可以看这个问题:Why use H for entropy?)...对于独立事件,不确定性是可加的 让我们使用抛两个硬币的试验作为例子来使这个概念更加具体。我们既可以两个硬币同时抛,也可以先抛一个硬币再抛另一个硬币。在两种情况下,不确定性是相同的。...性质5:具有更多可能结果的均匀分布有更大的不确定性 比如你可以在抛硬币试验和抛骰子试验中做出一个选择,如果硬币正面朝上或者骰子1那面朝上就算赢。你会选择那个试验?如果你想最大化收入,肯定会选择硬币。

    71420

    干货 | 什么是熵?

    当然,还有为什么要用字母H来表示熵?...(表面上这个英文字母H是从希腊大写字母Eta上演变过来的,但实际上为什么采用了字母H来表示,还是有一段复杂的历史的,感兴趣的可以看这个问题:Why use H for entropy?...(2)是否有其他结构也能够满足所有这些理想的属性? 对于香农熵作为不确定性的度量来说,这两个问题的答案分别是:(1)很多,(2)没有。 我们来一个一个看我们希望熵的公式应该具有哪些性质。...对于独立事件,不确定性是可加的 让我们使用抛两个硬币的试验作为例子来使这个概念更加具体。我们既可以两个硬币同时抛,也可以先抛一个硬币再抛另一个硬币。在两种情况下,不确定性是相同的。...性质5:具有更多可能结果的均匀分布有更大的不确定性 比如你可以在抛硬币试验和抛骰子试验中做出一个选择,如果硬币正面朝上或者骰子1那面朝上就算赢。你会选择那个试验?如果你想最大化收入,肯定会选择硬币。

    1.1K20

    二次元世界的Linux—东方Project之B站掠影

    调查后得到几个有用的 JSON API: 得到本视频投稿的标签信息 得到当前的硬币、收藏、播放等反映热度的信息 得到投稿中所有分页 (一个投稿可以对应多个视频内容)的基本信息 ......(为了不给 B 站添更多麻烦此处不给出具体的 API 构造) 遍历每个视频投稿 av 号 , 使用获取标签信息的 API 判定是否为目标视频, 如果是则利用其他 API 获取数据,即为这一阶段爬虫的基本思路...[1]) 利用共现矩阵, 就可以得到每一个标签的向量化表示(在自然语言处理中经常提到的 Embedding), 此处以余弦值为相似度量编写一个 most_similar 函数就地调查一下与「芙兰朵露 ·...于是我对所有硬币数多于 100 播放量多于 4000 的动画区和音乐区的投稿进行调查, 并将硬币-收藏比超过 16% 的查询结果导入了一个公开的 Google 表格里(考古清单) ,欢迎查询。...检查分词的过程中发现含有平/片假名的词语没有被解析, 追溯到 jieba 源码才发现正则筛选的时候仅保留了汉字、字母、数字和少数几个符号。

    2.6K100

    1个掷硬币问题,4个Python解法

    书中从多个层面来介绍经典算法。尤其是后期的泛化,正则化等章节。介绍的算法,但是每个算法都用2-5种python方法实现。例如:  ?...Python 循环或自带Itertools ((笛卡尔乘积,经典概率) ? Python sympy(数学符号) (微积分公式推导和实现) ?...Python Pandas(分组计算) (程序员看得懂) ? Python numpy (矩阵计算) (注:用矩阵计算,有速度飞起来的感觉) ?...我们首先需要找到一个函数 h(η)。 这个函数可以让残差最小化。 ? 现在,计算两个硬币朝上的面值之和公式变成了如何定义h(η)函数。...公式推导完了,下面就看看Python的四种解法吧。 解法1 :Sympy数学符号方法 上述推导公式,直接可以用数学符号语言,在Sympy中计算。

    1.3K90

    计算与推断思维 八、随机性

    在本节中,我们将学习如何使用代码来描述这种情况。条件语句是一个多行语句,它允许 Python 根据表达式的真值选择不同的选项。...我们可以通过添加一个elif子句来实现,其中elif是 Python 的else, if的缩写。...你先得到绿色纸条,然后是红色纸条的几率是多少? 有六种可能的颜色对:RB,BR,RG,GR,BG,GB(我们已经缩写了每种颜色的名字,就是它的第一个字母)。...如果你投掷硬币两次,有四个等可能的结果:HH,HT,TH 和 TT。 我们把正面缩写为 H ,反面缩写为 T。至少有一个正面的几率是 3/4。...个体 B 或 C 根据掷硬币来选择:如果硬币为正面,选择 B,否则,选择 C。 这是一个大小为 2 的概率样本。

    85130

    一文了解最大似然估计

    似然函数是从统计模型中导出的,并被视为该模型生成数据的参数的函数。 是不是很疑惑? 下面用一个示例来解释:考虑一下抛掷一个公平硬币十次的情况。...我们的问题就是我扔的硬币是否公平。 需要注意的重要是,在这种情况下, 不再是随机的。我们有了二项式过程的观察结果,这意味着它现在是一个固定值。...二项式模型的似然函数可以写成: 在这里,使用“帽”(hat)符号来明确说明 是10次抛掷中观察到的正面数。 现在,似乎看起来似然函数与概率质量函数(PMF)是一回事。 但是,是有区别的。...因为它是一个不影响参数估计的常数项。 对于当前的目的来说,无论是否对似然函数进行对数变换都无所谓。因为这两个函数是单调相关的,我们可以最大化其中任何一个,并得到相同的结果。...总的来说,使用对数是一个不错的选择。 2.3 通过导数求得 现在我们有了对数似然函数。 接下来,可以采取一种蛮力的方法,尝试一系列的值,看哪个给出了最高的似然值。

    2.6K11

    机器学习必备 | 最大似然估计:从统计角度理解机器学习

    对于一组训练数据,使用线性回归建模,可以有不同的模型参数来描述数据,这时候可以用最小二乘法来选择最优参数来拟合训练数据,即使用误差的平方作为损失函数。...现在有一人抛了10次硬币,得到6正4反的结果,如何估算下次硬币为正的概率呢? 因为硬币并不是我们制作的,我们不了解硬币是否是完全均匀的,只能根据现在的观察结果来反推硬币的情况。...两次抛掷硬币相互之间不影响,因此硬币正面朝上的概率可以用各次概率的乘积来表示。 似然函数通常用L表示。观察到抛硬币“6正4反”的事实,硬币参数θ取不同值时,似然函数表示为: ?...在这个赌局中,我会猜测下次硬币为正,因为根据已有观察,硬币很可能以0.6的概率为正。 ? 似然函数的一般形式可以用公式2第2行来表示,也就是之前提到的,各个样本发生的概率的乘积。...L中的乘积符号和exp运算看起来就非常复杂,直接用L来计算十分不太方便,于是统计学家在原来的似然函数基础上,取了log对数。

    5.6K22

    连载 | 概率论与数理统计(1) – 基本概念

    专注于生物方向的数据分析,一位编程爱好者。关注Python, R和大数据。 最近专门抽出一段时间对自己学习过的《概率论与数理统计》做一个小结,也算是对自己的一个交代。...以下主要根据浙江大学在中国大学MOOC上的公开课笔记,整理而来: 基础中的基础 ---- 统计规律性: 在所有可观察的现象中,可以从大的方面分为两类——必然现象和随机现象。...还是拿抛硬币来举例,每次抛硬币都不知道会得到正面还是反面,但如果有耐心将一枚均匀的硬币抛20,000次(已经有多位著名的统计学家这么做过了),然后统计一下正反面分别出现了多少次,就可以发现它们差不多都是...所有的随机试验的结果可以分为两类来表示: 数量化表示:射击命中的次数,商场每个小时的客流量,每天经过某个收费站的车辆等,这些结果本身就是数字; 非数量化表示:抛硬币的结果(正面/反面),化验的结果(阳性...,多个自变量可以对应同一个函数值,但不允许一个自变量对应多个函数值; 随机变量X取某个值或某些值就表示某种事件,且具有一定的概率; 随机变量中的随机来源于随机试验结果的不确定性; 随机变量的表示: 随机变量通常用大写字母

    77010

    概率论之概念解析:引言篇

    我绝对不是这个领域的专家,但是我觉得我可以写成一系列的文章,用来解释概率论的各种概念。这是本系列的第一篇,将介绍一些基本的定义。 ▌定义和符号 ---- ---- 概率通常与至少一个事件有关。...他们是用字母P表示的。因此,我们可以用“P(X = 3)”这个数学术语来写“当我投掷一个公平的六面骰子,落在3上的概率是多少?...” ▌三种类型的概率 ---- ---- 上面介绍了随机变量的概念和概率的一些符号。但是,概率可能会相当复杂。也许首先要了解的是有多少种不同类型的概率。它可以是边缘,联合或有条件的。...再次,这些红牌中的有2张牌面为4,所以条件概率是2/26 = 1/13。 另外,如果你喜欢数学,我们可以使用我们上面定义的一般乘法规则来计算联合概率。...假设我们有两个事件:事件A - 抛一枚均匀的硬币,事件B - 掷一个均匀的骰子。我们可能想知道的是掷出6和硬币落地正面朝上的可能性。

    1.2K50

    最大似然估计:从概率角度理解线性回归的优化目标

    对于一组训练数据,使用线性回归建模,可以有不同的模型参数来描述数据,这时候可以用最小二乘法来选择最优参数来拟合训练数据,即使用误差的平方作为损失函数。...现在有一人抛了10次硬币,得到6正4反的结果,如何估算下次硬币为正的概率呢? 因为硬币并不是我们制作的,我们不了解硬币是否是完全均匀的,只能根据现在的观察结果来反推硬币的情况。...两次抛掷硬币相互之间不影响,因此硬币正面朝上的概率可以用各次概率的乘积来表示。 似然函数通常用 表示,对应英文Likelihood。...从图中可以看出:参数 为0.6时,似然函数最大,参数为其他值时,“6正4反”发生的概率都相对更小。在这个赌局中,我会猜测下次硬币为正,因为根据已有观察,硬币很可能以0.6的概率为正。 ?...最大似然估计法告诉我们应该选择一个 ,使得似然函数 最大。 中的乘积符号和 运算看起来就非常复杂,直接用 来计算十分不太方便,于是统计学家在原来的似然函数基础上,取了 对数。

    1.7K20

    一个博弈游戏,据说智商130才看的懂

    博弈论是一门非常有意思的学问,之前小灰曾经分享过两个著名的博弈场景:囚徒困境和智猪博弈。 今天,我们来介绍一个更加烧脑的博弈游戏:硬币游戏。 游戏规则 小灰和大黄都有若干块糖果。...不不不,这个游戏里,其实包含着一个隐蔽 的漏洞: 如果是随机的抛硬币,那么每种情况出现的概率的确是,但是不要忘了,这个游戏的规则不是随机的抛硬币,我们可以主观选择自己亮出的硬币是正面还是反面,就像在玩“...-2 小灰出反面,大黄出正面的概率是p(1-q) , 小灰的收获是-2 我们用一个字母表示小灰的预期收获,那么的值为: (也就是把他们加在一起了) 简化之得: 下面的分析会比较烧脑,涉及到含参数不等式以及减函数的知识...对于上面参数不等式的三种情况,让我们分别进行具体讨论: 情况A,当参数大于0,即,时: (不等式符号不变) 当定义域为时,有函数 对应的函数图像为 ?...为了保证(在q的定义域内)不等式成立,p必须小于f(1),也就是时,原式成立。 情况B,当参数小于0,即,时: (不等式符号相反) 当定义域为时,函数为一个减函数,具体的函数图像可以看下图: ?

    89220

    机器学习数学基础之概率统计

    我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。例如, ? 和 ? 都是随机变量X可能的取值。 对于向量值变量,我们会将随机变量写成 ?...,它的一个值为 ? 。就其本身而言,一个随机变量只是对可能的状态的描述;它必须伴随着一个概率分布来指定每个状态的可能性。 随机变量可以是离散的或者连续的。离散随机变量拥有有限或者可数无限多的状态。...我们将文字描述转换为数学语言,根据作案频率可知 P(A)=0.8,P(B)=0.1,P(C)=0.5 将“村里有东西被偷”记为S,根据得手率可以得到 P(S|A)=0.1,P(S|B)=1.0,P(S|...我们可以依据下面的求和法则来计算P(x) ? ? 注:这里有了大写字母表示随机变量,但其实要用小写的,具体查看上面第一节。 注:“边缘概率”的名称来源于手算边缘概率的计算过程。...均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b) 均匀分布的概率密度函数为: ? ?

    84860

    独家|使用Python进行机器学习的假设检验(附链接&代码)

    例如:你有一枚硬币而你不知道这是否公平或棘手所以让我们决定零和备择假设 H0:硬币是一个公平的硬币。 H1:硬币是一个狡猾的硬币。...您有一个包含10个值的数据集。如果你没有估算任何东西,每个值都可以取任何数字,对吧?每个值都可以完全自由变化。但是假设您想使用单样本t检验来测试10个值的样本的总体平均值。...例如,如果我们想根据种族等某些分类变量来测试选民年龄是否不同,我们必须比较每个级别的平均值或对变量进行分组。我们可以为每对组进行单独的t检验,但是当你进行多次检测时,你会增加误报的可能性。...单向F检验(ANOVA):根据它们的平均相似度和f分数来判断两个或更多个组是否相似。...我们可以使用卡方检验来确定独立性,以确定性别是否与投票偏好相关 以下为python代码 df_chi = pd.read_csv('chi-test.csv') contingency_table=pd.crosstab

    1.2K30

    贪心算法

    贪心法的求解过程             用贪心法求解问题应该考虑如下几个方面: (1)候选集合C:为了构造问题的解决方案,有一个候选集合C作为问题的可能解,即问题的最终解均取自于候选集合C。...例如,在付款问题中,已付出的货币构成解集合。 (3)解决函数solution:检查解集合S是否构成问题的完整解。例如,在付款问题中,解决函数是已付出的货币金额恰好等于应付款。...例如,在付款             问题中,贪心策略就是在候选集合中选择面值最大的货币。 (5)可行函数feasible:检查解集合中加入一个候选对象是否可行,即解集合扩展后是否满足约束条件。...子问题:假设为了解决某一优化问题,需要依次作出n个决策D1,D2,…,Dn,对于任何一个整数k,1 的初始状态,来进行以后的决策,这样的问题就成为是原问题的一个子问题。...贪心法的应用 哈夫曼编码 0-1背包问题 磁盘文件的存储 生产调度问题 信息查询

    1.6K20

    软件测试流程及主要用例设计方法

    其实实际项目中没有过于关注用例设计方法,而是侧重于业务逻辑是否能充分覆盖。...2.2边界值 边界值分析法就是测试边界及临界值,如密码为8-16位,就要测试7、8、9和15、16、17位; 2.3因果图 因果图分析法:根据事件或流程的因果逻辑列出各种可能性; 举例:有一个单价为五角钱的饮料自动售货机软件...需求如下: 1)若售货机没有零钱找,则一个现实“零钱找完”的红灯亮,以提示顾客在此情况下不要投入1元钱,否则此红灯不亮。...24 送出橙汁饮料 25 送出啤酒饮料 根据需求说明设置中间节点: 序号 中间节点 11 投入1元硬币且按饮料按钮 12 按“橙汁”或“啤酒”按钮 13 退还五角零钱且售货机有零钱找 14 钱已付清...根据列出的原因、结果、中间节点画出因果图(各种组合后的结果): 用例编号 有无零钱 投入金额 饮料 预期结果 C01 有 1元 橙汁 退回五角、送出橙汁 C02 有 1元 啤酒 退回五角、送出啤酒

    1.8K40

    期望最大化(Expectation Maximization)算法简介和Python代码实现(附代码)

    这是一个非常简单的例子,所以我们也从这里开始。 假设我们有两枚硬币(硬币 1 和硬币 2),正面朝上的概率不同。我们选择其中一枚硬币,翻转 m=10 并记录正面的数量。...我们的任务是确定每个硬币正面朝上的概率。我们有: 首先假设我们知道每个实验中使用了哪种硬币。在这种情况下,有完整的信息,可以使用最大似然估计 (MLE) 技术轻松求解 p_1 和 p_2。...由于 Python 中的大多数求解器旨在最小化给定函数,因此我们实现了一个计算负对数似然函数的函数(因为最小化负对数似然函数与最大化对数似然函数相同)。 代码和结果如下所示。...现在估计概率 p_1 和 p_2 变得更加困难,但仍然可以在 EM 算法的帮助下完成。 如果知道选择硬币 1 或硬币 2 的概率,就可以使用贝叶斯定理来估计每个硬币的偏差。...在下面的实现中将使用与论文中相同数据来检查是否获得了相同的结果。

    81430

    数字在计算机中的“硬币表示”

    首先,补码规则的前提是,数字需要写成二进制形式(也就是说要能够通过摆若干个正反面硬币来表达),并且划定一个固定的位数(硬币个数),比如说 4位、8位、16位、32位、64位等等。...其中需要解释的概念是字长,字 代表电脑一次处理运算事务的单位,字长即为这个单位有几个二进制位,我们可以理解为一个钟表有几个刻度。...4.2 浮点数基本结构 现在我可以正式地介绍浮点数了,和整数一样,首先要确定一次用多少个二进制位(硬币)来表达浮点数,常用的浮点数用到的二进制位个数有两种,32位和64位,这里先用 32 位(4 bytes...对应还有双精度浮点数,它使用 64 位(8 bytes)来存储一个浮点数,相比于单精度浮点数,它可以存储更多的有效数字,更大的指数,意味着更精确,它的分配方案如下。 ?...下面是一个 Python 的例子,我们发现,0.1+0.2 其实并不总是等于 0.3: ?

    2K10

    独家 | 一文带你熟悉贝叶斯统计

    利用这个数据集和Bayes定理,我们想弄清楚抛硬币的结果是否有偏差,以及这个实验的置信度。 技术含量的内容来了:首先定义θ是出现正面的偏差——即硬币落地时出现正面的概率。...根据这个模型中的数据来更新置信度的方式真是无比简单! 现在来检查一下它是否真的有意义 。假设偏差未知,将可以导出先验概率分布β(0,0)是一条平直的线,即所有的偏差都有同样的可能。...让我们来看一下,如果使用一个稍微合理的先验概率分布β(2,2),假设:抛掷硬币是等概率事件,根据数据得出的结论是显而易见的。 此时, 3个正面和1个背面告诉我们,后验分布函数是β(5,3)。...第一步是写出似然函数P(θ|a,b),在上述例子中,为β (a,b),直接从收集的数据中得出,这完全由数据来决定。 第二步是确定先验分布,在这一步可以有所选择,但同时也是一种约束。...假设根据投票数据来预测谁将赢得选举,需要建立了一个模型,给定有前一年的数据,收集的数据经过测试后,便知道它有多准确!

    90410
    领券