台灣控:嘗試用《使用整个基因组数据解码新冠病毒的进化和传播》去搜尋該文,發現似乎已經被移除,不曉得是不是怕被抓到造謠的證據!http://chinaxiv.org/home.htm
此文來自:這些結論來自中國科學院西雙版納熱帶植物園、中國科學院核心植物園、韶關大學英東生物與農業學院、華南農業大學、北京腦科學與類腦研究中心(CIBR)團隊。
本文也是來自中國網友文章,主要在揭穿《使用整个基因组数据解码新冠病毒的进化和传播》文中幾乎沒有根據的數字!
原標題:唐駁虎:美國和中國的病毒,誰是爺爺輩?看圖!
原創 唐駁虎 鳳凰網 2020-03-01
文/鳳凰新聞客戶端榮譽主筆 唐駁虎
前面4篇,講完了用一兩句話總結就是:
流行病學調查(簡稱「流調」)19世紀靠「猜」、20世紀靠「找」、21世紀靠「算」。
19世紀是馬車、20世紀是汽車,21世紀是高鐵、飛機、火箭。其他領域如此,生物領域更是如此。
現在,我們要坐著飛機和火箭,從正確的起點出發去找了。
傳統流調的貢獻與極限
綜合各媒體的報導,12月底,在武漢中心醫院、新華醫院(中西醫結合)等醫院,指示病例(Index Case)幾乎同時爆發,各醫院的6~7例非典型肺炎病例,都被盡職盡責的醫生們注意到,並立即上報,拉開疫情序幕。
隨後,各醫院的醫生,又在本院病例庫裡,追蹤了本單位原發病例(Primary Case),找到了更多12月發病的病例,並描繪成曲線。
目前臨床庫裡追蹤到最早的病例,分別是12月初的華南果品市場攤販、12月初附近小區常年癱瘓臥病在床的老年痴呆患者。
顯然,這些還都不是真正意義的「原發病例」。如果公共衛生調查力量介入,在去年11月的武漢,理論上有可能找到所謂的「1號病人」——按流行文化和熱門網文的定義,大致是人類世界裡第一個患病的患者。
但想找到嚴格意義的「0號病人」——按流行文化和熱門網文的定義,大致是人類世界裡第一個被動物感染、但卻沒有生病的患者。然後又是他把病毒傳播開來,最終產生了「1號病人」的感染-傳染者——但這是不可能的。
▎從疫情發生到現在,武漢市中心醫院急診科主任艾芬,帶領著近200人的團隊,50多天不下火線,日夜堅守在發熱門診、留觀病房(武漢廣播電視台)
因為現在大家都知道了無症狀感染者、病毒潛伏期的概念。
無論你找到誰,你怎麼證明,在他/她之前的1~2個最長潛伏期(14~28天)內,就一定沒有別的疑似病例、沒有無症狀感染者?「會不會還有上家」?這沒法證明。而且,由於當時的患者已經治癒、自癒或者病亡,做核酸檢驗已經是過去式。
就是做最靈敏、有記錄的血清抗體檢驗——現在武漢好幾萬病癒患者、自癒的輕症患者、無症狀感染者,如何確定感染時間先後?
如何確定誰是去年11月而不是今年1月不知不覺感染上的「無症狀患者」?現在也完全區分不開了。
所以,傳統流調的追溯極限大概就是這裡了——它提供了病情溯源的起點。
但要繼續侷限在這個辦法裡「找」,那就是駕馬車鑽死胡同。如前所述,蠢得冒煙的行為。
要不僅掌握病毒在人類世界流傳的「今生」,還要瞭解病毒之前在自然界演化的「前世」,必須用21世紀的分子生物學、生物信息學。
因為,在病毒序列裡,記載著病毒傳播演變的全部身份、歷史。也正如鐘南山老先生所說,必須要靠「溯源」。
溯源工作的三個目標
溯源工作的基本工具,以前已經講過很多次了,就是基因測序(「測」)和生物信息學(「算」),最重要的分析手段,就是演化樹定位。
這些都是全世界生物學界公認的基本標準,現代生物學的基礎地基,也是實驗室最常規的手段,而不是什麼科學前沿。
說白了,中國懂,美國也懂,俄羅斯也懂,一般國家都懂,所有的生物研究者都懂。
現在一台測序儀每天可完成 60 人的全基因組測序,把 60 個人每人 31.6 億bp這麼複雜的生物DNA全部測出來。
新型冠狀病毒只有不到 3萬bp的單鏈RNA,不到一個人10萬分之一的數據量,在現代基因測序技術面前如同裸奔一般。
以前沒有基因測序,各種陰謀論還真不好反駁。但有了基因測序技術之後,全序列清清楚楚,都袒露在全世界面前。
病毒的變異、留痕,都是公開透明的、可以追查的。
不認可的國家、專家可以自己調查研究,樣本現在全世界都有,只是發出來的報告不要被全世界淪為笑柄就好。
溯源工作至少有三個主要層面:
1、研究病毒如何從動物進入人體;搞清楚它從天然宿主到人類世界的路徑,通過什麼中間宿主,發生了什麼基因變異、重組,最後在什麼場景下傳入人類世界。
2、研究病毒在自然世界的演化史(「前世」);在自然界演化過程中,病毒的特性是否發生了明顯的定向的變化。
3、研究病毒在人類世界的傳播史(「今生」);從武漢到全世界的擴散過程中,發生了什麼樣的變化,有沒有出現傳播能力和毒力的變異。
從關心程度來看,可能大部分人關注的程度是1、2、3。
但從病毒溯源的過程來看,邏輯步驟則應是3、2、1。我們今天先來談3。
台灣節目揭露病毒來自美國?
這兩天一條「台灣節目追溯新冠病毒源頭,然後追到美國去了」的視頻火了。
節目中,有關嘉賓判斷新冠病毒源頭可能在美國的主要依據,正是前不久幾位研究者在ChinaXiv論文預印本網站上聯合發佈的一篇論文。
也正是我早就說過——「大錯特錯」、「譁眾取寵」的一篇論文,發表於2月21日。
四位作者分別來自西雙版納熱帶植物園綜合保護中心、韶關大學生物農業學院/華南農業大學林學與園林學院、中國腦科學研究所。
當時就被生物業界同行評價為——做研究跨界太大,結果存疑。
當然,我們不因人廢言。但所有科研成果,都需接受專家學者的交流和討論。
當時的網友評論
在這篇論文裡,對病例、樣本的命名極其混亂、拗口。什麼mv1、H38、H3、H1、H56、mv2,編號亂得要命,數字大小既不代表時間順序,也不代表空間與邏輯順序,真不知道怎麼命名的。
(順帶說一句,就我個人的行外感受,混亂混沌的生物,跟嚴謹有序的物理、工程,兩種學科的思維模式非常不兼容。)
這篇論文,當時就被一般讀者吐槽了。命名、邏輯顛三倒四,讓人讀起來、理解起來極其費勁。神馬玩意啊!
▎當時的網友評論
經過令人頭疼的閱讀,終於能理解,他們的研究方式是,選取了GISAID數據庫中覆蓋了四大洲12個國家的93個新冠病毒樣本的基因組數據(截止2月12日),通過數據解析,追溯傳染源及擴散路徑。
他們研究發現,93個樣本包含58種類型,可以歸納為五組。
結果他們發現,武漢居然只有三組!深圳有另外一組,美國有另外一組。而且美國集齊了所有的五組!
有陰謀!大陰謀!
譁眾取寵不要太過啊……
這裡,我先用普通讀者就能讀懂的視角來解析這篇論文。
其實論文當時就承認,來自武漢的樣本,取樣截止日期早在1月5日之前,而全球大部分地區的樣本,都是1月22日之後才獲取的,當時最晚的取樣日期是2月3日。
但就是這樣的背景,還能得出結論——華南海鮮市場的患者可能是被傳入的,不是原始來源。
因為武漢/華南海鮮市場的類型單一,而武漢/華南海鮮市場之外的類型反而比較豐富。
所以這就是論據-推論-結論。我也是服了。
如果仔細研究數據來源,就發現研究的依據——武漢的樣品完全采自早期幾家定點醫院,而且樣品採集時間侷限於12月24日~1月5日之間。
稍微有點記憶的讀者就知道,當時公佈的發現病例,不過是區區44~59人!實際上就是那幾家醫院發現的指示病例(Index Case)而已!
而中國疾控中心2月12日所做的回顧性研究已經顯示,12月31日之前,湖北已出現104名發病者(還不包括感染者);
到1月10日,已經出現653名發病者,分佈在20個省份的113個縣區,其中湖北佔88.5%(578人)。其他75人已經位於湖北省外的19個省。
這顯示大規模疫情傳播已經開始,感染者還不止這幾百人。
在武漢幾百個已經發病的病例中只選幾十個病例,那肯定類型不全啊!
至於拿1月20日已經流散到全球、開始演化的病毒,去比較1月5日之前的少數幾個集中的早期病例,那就更是關公戰秦瓊了!
論據選取就已經大錯特錯了,遑論其他。
當然,21日的這篇論文,還是承認全球包括美國早期的感染者,都有武漢旅行經歷,是在武漢被感染的。
所以論文得出的結論就是,可能源頭在華南海鮮市場之外,但是還是在武漢。
而之後的媒體傳播,就故意隱去了「武漢旅行史」,變成了美國憑空就有了所有五組病例。
所以……這形同造謠了。
更加驚世駭俗:湖北已經是第三代?
論文還認為,美國的第一例病例,在演化樹上還屬於中國的「祖先」,這就進一步輔助坐實了陰謀論。
美國是「爺爺」,中國怎麼是「孫子」,這不就是從美國傳來的嗎?
不僅如此,原論文認為廣東(綠)、日本(藍)、美國(粉紅)的病例病毒是第一代,英國(灰黃)、澳大利亞(土黃)、美國(粉紅)、韓國(青綠)、越南(土粉)是第二代。
原論文作者的解讀
湖北(正紅)病例在第二代才出現,第三代才擴散。這真是驚世駭俗啊!
武漢是被廣東、四川、雲南、越南、韓國、英國傳染輸入的?這不是扯地嗎!
但真實的原因上一段已經說了,這裡選取的湖北(也就是武漢)病例,都是1月5日前被收治的一小部分(比例約1/10)。
▎這是更正確一些的解讀
而圖上大量的外省、外國病例(1月底之前),則都是1月20日前,在武漢旅行、居住,被傳染上的其他病毒子類型。
只要是專業研究者,一眼就看透問題了
且不說上面已經講清楚的病例選取問題,我還就是一句話,你訪問過他們做研究所用的數據庫GISAID嗎?
你只要上去看一眼,就知道他們錯在哪了……
這裡先科普介紹一下,專業研究者做基因比較,最常利用的就是這麼幾組國際公開共享的基因數據庫:
GenBank是美國國家生物技術信息中心(National Center for Biotechnology Information ,NCBI)建立的基因序列數據庫。
GISAID的全稱是Global Initiative of Sharing All Influenza Data(全球共享所有流感數據倡議),由德國聯邦食品和農業部及其下屬的德國聯邦動物研究所運營。
CNBG(China National GeneBank DataBase)中國國家基因庫,則是由深圳華大基因運營。
由於病毒特性,在這次疫情中,德國的GISAID國際流感數據庫是各國學者上傳最集中的數據庫。
這個數據庫最開始的時候專注於流感,後來則逐漸擴大為呼吸道傳染病,及其他生物信息。
好,我們就來訪問這個GISAID。現在已經有21個國家共享了128組病毒測序數據。
從首頁只需點擊一下右側導航欄,你發現了什麼?
原來,GISAID已經直接把所有病毒的演化樹,按時間、國家、特別是演化樹的結論,直接呈現了……
GISAID的地區設色,中國大陸為深紫色,大致由近到遠顏色變化,美國為深紅色。
雖然中國的上傳更新還是很慢,大部分序列還是1月24日之前的,外國的要快得多。
但GISAID已經把所有序列的演化關係,初步自動計算呈現出來了。
可以看出,在繁衍、變異、傳播的演化樹上,的確總體上是中國早期的病毒是「爺爺」,亞太的是「兒子」、歐美的是「孫子」,呈現出由近到遠演化的有序序列。
說實話,對於生物信息學我只是概括瞭解,我確實無力演算驗證。
但你要說,是最全專業數據庫全自動生成的、清清楚楚的、可視化的、邏輯時間結構清晰的結果可信,還是跨界研究者手工計算、顛三倒四、令人費解的結果可信?
我當然是相信前者……
明明網絡數據庫直接就給出了最全、最現成、可視化的結果,誰還要你手工自己算……
而且還算錯了,算錯了,算錯了,算錯了,算錯了,算錯了……
溯源3就這樣在被一篇奇葩論文打亂的過程中大致完成了。
其實,還有好幾篇嚴肅、可信的論文,然而卻無人問津。
比如南方醫科大學(原第一軍醫大學)的研究者,就把病毒由動物傳入人類的時間,初步確定為11月10日左右。
結合臨床回顧,這個時間點應該是可信的。那下一步,我們就圍繞這些嚴肅論文,展開對2和1的追蹤。
↧