淘客熙熙

主题:【原创】我们学过的数理化——如何计算带宽需求 -- 代码ABC

  • 共: 💬 20 🌺 273
  • 【原创】我们学过的数理化——如何计算带宽需求

    我们搞一个视频点播站,三个月后期望能做到平均有100用户在线,每个用户需要300k BPS的带宽。请问我们网站的带宽需求是多少?

    这类问题我们经常被问到,许多人都会简单地做一下乘法然后交卷——我们需要100x300k=30M的带宽。太简单了,这是个小学生都会计算,然而大部分只使用小学生知识做规划的设计人员最后都会被市场部的人骂得狗血淋头。因为平均在线用户数量达到的时候有近一半的用户投诉视频卡得无法忍受。

    哪里出了问题呢?

    如果我们学过的概率知识没全部忘记的话,我们立刻会想到当平均在线用户是100的时候,大部分时候在线用户数会超过100。不过到底会超多少就需要我们把课本重新翻出来仔细看看了。

    这个问题其实是一个简单的概率分布问题,我们需要知道每种在线用户数量出现的概率,然后定一个合理的指标,确保大部分情况下我们的带宽可以满足要求。在我们的概率论课本中有两种概率分布可以帮忙,一个是正态分布,另一个是泊松分布。一般来说特定时间内在线用户数满足两种分布中的一种。

    个人喜欢使用泊松分布。自然界许多随机事件符合泊松分布,比如呼叫中心同一时间接到的呼叫次数,银行窗口排队的人数等等,和我们的需求十分吻合。另一个好处是这种分布函数只依赖于一个参数,即随机变量的平均值。在我们这个例子里随机变量就是在线用户数,平均值已经给出,所以我们可以很方便地计算出在线用户小于等于某个数值时的概率。这个公式在Excel里面就有了,在Excel的公式向导中的统计类中找出Poisson,在平均值处输入100,在累计处输入True,然后在X处输入一个值,你就能得到平均值为100时,在线用户数小于或等于X的概率。你会发现在线用户小于或等于100的概率其实只有52.7%,当我们把X调整为120的时候概率才增加到97.7%,所以如果你期望用户投诉概率小于3%的话带宽需求必须是120x300K = 36M。

    接下来的问题是,我们怎么确定在线用户的数量符合这个分布。两个方法:一是建立模型然后计算,另一个方法是进行实地测量。在这里我们一般会选择第二种方法,因为准确的模型很不好建立。然而验证实际情况是否符合泊松分布同样需要用到我们概率论的知识。某些情况下会非常复杂,具体到这个情况的话我一般需要简单判断一下方差是否和平均值相同即可,因为经验告诉我不是泊松分布就是正态分布。

    正态分布的分析方法和泊松相同,不过正态分布计算还需要一个标准差的参数,这个参数在这个例子必须实地测量。也就是必须在运营一段时间之后才能得到。

    我知道很多网管在处理这些问题大多是先用小学知识预估,然后再实际工作中不断地分析日志调整。整个过程从来不需要用到超过小学的知识,这些网管一般也活得挺好。然而,如果你能运用上这些知识,你很可能变成一个可以预知未来的巫师。你也将从一个普通的网管升级成为架构师。

    “学而时习之,不亦乐乎”

    信然!

    ……

    ……

    厄哦,谁把仓井空的AV放上来了!

    抱歉,这次堵塞无法用概率解释!

    关键词(Tags): #数理化#概率#泊松分布元宝推荐:holycow,橡树村, 通宝推:侧翼,上古神兵,一无所之,东海后学,侯登科,Mtknr20,抱朴仙人,
    • 不就是个通讯业常见的爱尔兰公式么?
    • 第一次在工作上用上大学数学

      公司正推进财务预算管理,要求每月初上报当月预计赔款金额。

      客户通过购买保险,不确定的损失变成了确定金额的保险费,他倒是可以推行预算管理制度了,保险公司也要落实预算管理?那不确定性哪里去了?

      一直对这个工作不理解,不支持,坚信损失发生概率和损失程度都是无法预测的,坚信预算管理不适用于保险公司,直到楼主的泊松分布。

      例如,公司平均每个月发生索赔案件100宗,行业的案均赔款为2000元,那每月的预计赔款金额合计为20万元,如果按照20万预算上报的话,那一旦损失超标,月底的索赔就不得不拖到下个月。客户是上帝,偶然性是科学的敌人,所以我就按照50万上报了。

      上级财务部表示压力很大,现在按照泊松分布以及楼主实例,取预计损失的1.2倍作为月度赔款预算,即24万元,准确率可以做到97.7%,40个月一遇。

    • 胖尾现象

      胖尾现象表明某些看似不可能的事情发生的几率远大于人们通常的设想。因此在相关的设计的时候要加以考虑。设为3%的投诉率,还是过高。

      • 排队论,统筹学
      • 确实是这样

        所以我也提示了某种特别场合下概率完全无用(仓MM的AV),这些通常在规划时做为风险或特例处理,或者在运营时用一些应急措施来补救。概率只是一种手段而已。

        • 五十年一遇的旱涝年年遇

          概率的适用还是有些理想化,但可以用来应付上级、推卸责任,用来做幻灯片、忽悠骗钱。

          • 也不能这么说

            如果有50个地方的设计是50年一遇的话,每年至少一个“遇上”的机会是63.6%。地方一大就是这个样子。

            以预报为职业的人其实很倒霉,如果每年做两次预报,在职业生涯内至少失败一次的概率是很大的。如果学业不精的话很快就会转行的,那时候多半会用“骗钱”两字来自嘲或推托了。

    • 好老师

      简单易懂,送花得宝!

      送花成功,可取消。有效送花赞扬。感谢:作者获得通宝一枚。

    • 喜欢这种通俗易懂的科普贴,花之!

      送花成功,可取消。有效送花赞扬。

      参数变化,作者,声望:1;铢钱:0。你,乐善:1;铢钱:-1。本帖花:1

    • 这和我干的活儿本质是一样的啊
    • 这两个分布学完了就还给老师了。。。再没用到过
    • 作者获得通宝一枚。


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河