one-number-per-subject

看到 Seth Roberts1 寫 “Three things statistics textbooks don’t tell you” ,看得很過癮。話實,我的統計學是無師自通,期間都沒有看統計書藉,是多看其他人怎樣的分析數據,從中「偷師」。亦因此,我不是根正苗紅統計學出身,理論基礎不太濃厚。現在去讀一個生物統計學碩士純是用作證明我會統計學之用。
回歸正傳, Seths 提出了三點統計書藉永遠沒有告訴你的東西。第一點是統計圖表的主要作用,不只是統計書藉所強調的展示統計結果,而係在數據分析時觀察關係,再找出合適的分析方案。有時甚至可以從此找到新的研究題材。( Idea Generation )第三點是 Data Transformation 可令數據關係更易見到,這亦是老生常談,只是統計書藉較少著重有關討論。
至於第二點,他說可多用 one-number-per-subject 方法。這是我相當少見到的,所以帶來的思想衝擊甚大。借用 Seth 例子,如有 60 個研究對像,他們每天都量度睡眠時間及情緒分數,共六十天。即總共有 3600 對睡眠時間及情緒分數數據。我們想看看睡眠時間及情緒分數有沒有關係。好了,你會怎樣去分析這 3600 個數據?想當然的方法,是將 3600 點的睡眠時間和情緒分數做 correlation/regression 。但這樣做是錯的,因為我們不是有 3600 個研究對像,這樣做明顯有違 Regression 四大假設的 independence2 。有些人又會說做 Multiple Regression analysis 控制每個研究對像的不同,這亦是我輩會想到的分析套路。3 但這仍未解決到 independence 的問題。 Seth 提出的方法,是我想不到的:將 60 個研究對像的 60 天的睡眠時間及情緒分數,每人計一個 correlation coefficient 。再計算 60 人的平均 correlation coefficient 是否明顯高於零。4 他指出這方法不但解決了 independence 的問題,亦可解決了數據缺失及 outliner 。亦令分析簡單方便但又不減低分析的 sensitivity 。
這個技術好像沒有人教過我。在此向大家分享。5

  1. 此君未夠 60 歲已經退休,現在是加州柏克萊大學心理學系榮譽退休教授 []
  2. 另外三個分別是 Linearity, homoscedasticity 及 normality of error []
  3. 即是將 Subject 當作一個 dummy variable 。因為我們有簡單複雜化的傾向,面對複雜問題用更複雜的方法 []
  4. 即是每個對像以一個 correlation coefficient 作為一藍子數據的 summary ,再分析這個 summary 。故作 one-number-per-subject。 []
  5. 雖然沒有人教,但我的 innate response 驅使我用過這些方法。例子是在分析去年港島補選的 Meta-analysis ,我沒有用到每次民調的 raw data ,而只使用葉劉和陳太的 margin 。由於每次 sample size 及 Margin 都有不同,故此 Standard Error 不同,我使用了 Meta-analysis 控制 Standard Error 不一的影響。 []

Today on history:

  1. 2006:  辭職(2)
  2. 2006:  失敗經驗分享(0)
  3. 2005:  廣州音樂(4)
  4. 2003:  你老味!(0)
  5. 2003:  lasjkfgjdaggb(0)
  6. 2002:  02092002(0)

Comments 3

  1. Johnson Lau wrote:

    可以用multilevel analysis嗎?

    Posted 02 Sep 2008 at 3:23 pm
  2. Chainsaw wrote:

    對,教科書的標準答案是 multilevel analysis ,任何的 biostat./Epi textbook 係會教這些 Longitudinal data 用 multilevel analysis (我其實不太喜歡這個 term ,我會叫做 Linear mixed effect model ,因為明明 SAS 個 PROC 叫 MIXED , R 叫 LME4 ,即 Linear Mixed effect model ,就算 SPSS 都寫 Mixed Model ),因為除了睡眠時間和情緒分數本身可能有關之外 ( Fixed effect ),同一個 Subject 在不同時間獲得的睡眠時間和情緒分數之間都有 correlation ( random effect )。

    Posted 02 Sep 2008 at 4:01 pm
  3. 方潤 wrote:

    第一點有些統計入門書也會提到。

    例如我看的書就說,拿到數據後,第一件事應該是繪圖。看看有甚麼關係再進一步用方法分析。

    Posted 02 Sep 2008 at 4:18 pm