中新網(wǎng)2月18日電(記者 張尼)“80后死亡率突破5.2%”“80后的死亡率已經(jīng)超過(guò)70后”……近期,網(wǎng)絡(luò)上一連串駭人聽(tīng)聞的數(shù)字引發(fā)關(guān)注,80后們更是提心吊膽。但隨后相關(guān)消息被辟謠。
這一誤導(dǎo)人的數(shù)據(jù)是如何算出來(lái)的?AI是否可能出現(xiàn)偏差?記者采訪了權(quán)威專家。
數(shù)據(jù)引用不實(shí)、死亡比例與死亡率混淆
中新健康發(fā)現(xiàn),此次大多數(shù)相關(guān)文章都號(hào)稱其數(shù)據(jù)來(lái)自第七次人口普查的“權(quán)威數(shù)據(jù)”。根據(jù)80后的“現(xiàn)存人口”和“總出生人口”計(jì)算,得到存活率降至94.8%,死亡率達(dá)到5.2%。
但仔細(xì)推敲就會(huì)發(fā)現(xiàn)數(shù)據(jù)的漏洞。
首先是數(shù)據(jù)引用問(wèn)題。網(wǎng)傳文章所謂80后“死亡人數(shù)1100萬(wàn)”“現(xiàn)存2.12億”并沒(méi)有官方統(tǒng)計(jì)數(shù)據(jù),所以在數(shù)據(jù)來(lái)源方面就引發(fā)質(zhì)疑。
其次是死亡率的計(jì)算問(wèn)題。
根據(jù)國(guó)家統(tǒng)計(jì)局關(guān)于死亡率的定義,死亡率(又稱粗死亡率)指在一定時(shí)期內(nèi)(通常為一年)一定地區(qū)的死亡人數(shù)與同期內(nèi)平均人數(shù)(或期中人數(shù))之比,用千分率表示。
由此可見(jiàn),網(wǎng)傳數(shù)據(jù)中出現(xiàn)了嚴(yán)重的概念混淆。
“死亡率是用千分率表示,而不是用1減去人口的存活率,不能將累計(jì)的死亡比例作為死亡率?!敝袊?guó)人民大學(xué)人口與健康學(xué)院教授李婷接受中新健康記者采訪時(shí)說(shuō)。
她表示,死亡率的計(jì)算是一個(gè)復(fù)雜的過(guò)程,現(xiàn)實(shí)中會(huì)通過(guò)一系列的數(shù)學(xué)模型或者是專業(yè)模型生命表的方式對(duì)數(shù)據(jù)進(jìn)行調(diào)整,還會(huì)和多個(gè)其他數(shù)據(jù)源交叉比對(duì),才能去評(píng)估死亡狀況。
至于“80后死亡率超70后”的說(shuō)法,李婷表示,我國(guó)的人均預(yù)期壽命在穩(wěn)定上漲,在此背景下,除非發(fā)生特殊情況,否則不會(huì)出現(xiàn)這么大一個(gè)年齡組死亡率倒掛。
語(yǔ)料訓(xùn)練不足或致AI出錯(cuò)
中新健康記者發(fā)現(xiàn),這條在網(wǎng)絡(luò)上廣為傳播的消息沒(méi)有任何權(quán)威信源。李婷在自己撰寫(xiě)的文章中也曾分析,這次這條流傳頗廣的誤導(dǎo)性消息最初來(lái)源很可能是和AI的對(duì)話所得。
那么為何AI會(huì)產(chǎn)生這樣的偏差呢?
“我個(gè)人推測(cè),一方面是因?yàn)楹芏鄬W(xué)術(shù)期刊是閉源的,另一方面也是在這方面的語(yǔ)料不足?!崩铈媒o出了個(gè)人看法。
她分析稱,目前AI依賴于語(yǔ)料的訓(xùn)練,但是在實(shí)際的學(xué)術(shù)應(yīng)用中,它對(duì)學(xué)術(shù)語(yǔ)料的獲取有一定的缺陷,這個(gè)缺陷可能很大程度在于大量的學(xué)術(shù)資源是閉源的,很難獲取到。現(xiàn)階段,如果想讓AI提供一個(gè)較專業(yè)的學(xué)術(shù)文獻(xiàn),經(jīng)常發(fā)現(xiàn)它會(huì)“編”出一些不存在的文獻(xiàn),這樣也就容易產(chǎn)生誤導(dǎo)。
“另外,本身與‘死亡率’相關(guān)的人口研究,相對(duì)是比較冷門(mén)的,不在日常語(yǔ)料中高頻出現(xiàn),即便出現(xiàn),在大部分非專業(yè)人士的認(rèn)知里,也分不清死亡率、死亡概率(死亡比例)這些詞之間的差異,所以有可能造成網(wǎng)上有些資料將術(shù)語(yǔ)進(jìn)行混用,出現(xiàn)概念混淆。”李婷說(shuō)。(完)