<address id="xpn9n"></address>
<p id="xpn9n"></p>
      <dfn id="xpn9n"><nobr id="xpn9n"><menuitem id="xpn9n"></menuitem></nobr></dfn>

        <form id="xpn9n"></form>

        <address id="xpn9n"></address>

        <address id="xpn9n"><listing id="xpn9n"><meter id="xpn9n"></meter></listing></address>

            <dfn id="xpn9n"><listing id="xpn9n"><menuitem id="xpn9n"></menuitem></listing></dfn>

                教育行業A股IPO第一股(股票代碼 003032)

                全國咨詢/投訴熱線:400-618-4000

                大數據培訓:填充缺失值的方法

                更新時間:2022年08月12日11時59分 來源:傳智教育 瀏覽次數:

                好口碑IT培訓

                  數據挖掘中面對的通常都是大型的數據庫,它的屬性有幾十個甚至幾百個,因為其中某個屬性值的缺失而放棄大量其他的屬性值,這種刪除是對信息的極大浪費,所以產生了插補缺失值的思想與方法。常用的填充缺失值方法具體如下。

                  1.均值填充

                  數據的屬性分為定矩型和非定矩型。如果缺失值是定矩型的,就以該屬性存在值的平均值插補缺失的值;如果缺失值是非定矩型的,就根據統計學中的眾數原理,用該屬性的眾數(即出現頻率最高的值)補齊缺失的值。

                  2.熱卡填充

                  對于一個包含缺失值的對象,熱卡填充方法會在完整數據集中找到一個與它最相似的對象的值進行填充。對于不同的問題,可能會選用不同的標準對相似對象進行判定,從概念上理解該方法很簡單,利用數據間的關系進行缺失值評估。熱卡填充后方法的缺點在于難以定義相似標準,人為主觀因素較多。

                  3.回歸填充

                  將缺失值變量(自身字段)作為因變量,相關變量(其他字段)作為自變量進行回歸擬合,用預測值作為填補值,需要注意的是自變量的數據盡量是完整的。

                  與前述幾種插補方法比較,回歸填充方法的優勢是可充分利用數據庫中的信息,弊端主要有兩點:第一,該方法是無偏估計,但容易忽視隨機誤差、低估標準差和其他未知性質的測量值,而且這一問題會隨著缺失信息的增多變得更加嚴重;第二,研究者必須假設存在缺失值所在的變量與其他變量存在線性關系,大多數情況下這種關系是不存在的。

                  4.多重填充

                  多重填充是由Rubin等人于1987年建立起的一種數據擴充和統計分析方法,作為簡單估算的改進產物。首先,多重估算技術用一系列可能的值替換每個缺失值,以反映被替換的缺失數據的不確定性。然后,用標準的統計分析過程對多次替換后產生的若干個數據集進行分析。最后,把來自各個數據集的統計結果進行綜合,得到總體參數的估計值。

                  由于多重估算技術并不是用單一的值替換缺失值,而是試圖產生缺失值的一個隨機樣本,這種方法可以反映出由于數據缺失而導致的不確定性,產生更加有效的統計推斷。

                0 分享到:
                你有多久没被C过了

                <address id="xpn9n"></address>
                <p id="xpn9n"></p>
                    <dfn id="xpn9n"><nobr id="xpn9n"><menuitem id="xpn9n"></menuitem></nobr></dfn>

                      <form id="xpn9n"></form>

                      <address id="xpn9n"></address>

                      <address id="xpn9n"><listing id="xpn9n"><meter id="xpn9n"></meter></listing></address>

                          <dfn id="xpn9n"><listing id="xpn9n"><menuitem id="xpn9n"></menuitem></listing></dfn>