10 August 2019

Slides at: https://rebrand.ly/Nagoya2019-Part1-JP
GitHub: https://github.com/jorgetendeiro/Nagoya-Workshop-10-Aug-2019

Today

Fraud

定義

Fraud = 科学における不正行為.

  • データの偽造または加工.
  • 意図的であり、故意的でないもの.
  • すべての科学的研究が 問われる.
  • QRPsとは際立って異なるもの (next).

有名な例

今日は科学における不正行為そのものについては 詳しくお話しません.

もっと発見しにくくて撲滅するのが難しいものについてお話します:

Questionable research practices (QRPs).

Questionable research practices
問題ある研究活動

QRPs(問題ある研究活動)

John, Loewenstein, & Prelec (2012) によって作られた用語.
See also Simmons, Nelson, & Simonsohn (2011).

  • 必ずしも fraud(科学における不正行為) ではない.
  • 実際に許容される範囲内の 研究活動とその悪用も含む.
  • QRPs(問題ある研究活動)に関する問題点:
    • バイアスを加えてしまう (典型的には, 研究者の意図を支持する方向にバイアスが加えられる…).
    • 第一種過誤(Type I error)の確率が上がるのを犠牲に(\(\gg 5\%\)) power(検出力) がつり上げられる.
    • 結果が 再現されない.

QRPs(問題ある研究活動)の例

(John et al., 2012; Schimmack, 2015).

  • いくつかの従属変数(dependent variables)を取り除く.
  • いくつかの条件を取り除く.
  • 覗き見(peeking): 逐次試験 — 結果を見ながら決める:
    • \(p > .05\): もっとデータを集める.
    • \(p < .05\): データ収集を止める.
  • \(p<.05\)の結果のみ報告する.
  • \(p\)-hacking: 例,
    • \(p<.05\)になるかどうかに基づいて外れ値を取り除く.
    • \(p = .054 \longrightarrow p = .05\).
  • HARKing (Kerr, 1998): 探索的に得られた結果を研究課題に変えること.

研究者の自由度

  • 研究者は 多数 の決断を下さなければならない (実験デザイン, データ収集, 分析手法); Wicherts et al. (2016), Steegen, Tuerlinckx, Gelman, & Vanpaemel (2016).
  • 研究者にとって好ましい結果になるよう操作することは充分、考えられることである.
  • これらは 研究者の自由度として知られている (Simmons et al., 2011).
  • 結果的に: 誤検出による発見が増える (Ioannidis, 2005).

Fried (2017)

  • 主に使われている7つのうつ病のスケールには52種類の症状が含まれている.
  • これらは7つの異なるスケールに相当する.
  • しかし、これらはすべて ’うつ病のレベル’として解釈される.

探索的分析から確認的分析へ

Bem (2004):

“(…) [L]et us (…) become intimately familiar with (…) the data. Examine them from every angle. Analyze the sexes separately. Make up new composite indices. If a datum suggests a new hypothesis, try to find further evidence for it elsewhere in the data. If you see dim traces of interesting patterns, try to reorganize the data to bring them into bolder relief. If there are participants you don’t like, or trials, observers, or interviewers who gave you anomalous results, drop them (temporarily). Go on a fishing expedition for something– anything– interesting.

これは探索的研究であることがはっきり書かれていない限りダメである.



Daryl Bem氏は2011年の予知に関する有名な論文の著者である
(今日の後半部分でこのデータを使います).

最近の有名な例…

コーネル大学のBrian Wansink教授.

His description of the efforts of a visiting Ph.D student:

I gave her a data set of a self-funded, failed study which had null results (…). I said, “This cost us a lot of time and our own money to collect. There’s got to be something here we can salvage because it’s a cool (rich & unique) data set.” I had three ideas for potential Plan B, C, & D directions (since Plan A had failed). I told her what the analyses should be and what the tables should look like. I then asked her if she wanted to do them.

Every day she came back with puzzling new results, and every day we would scratch our heads, ask “Why,” and come up with another way to reanalyze the data with yet another set of plausible hypotheses. Eventually we started discovering solutions that held up regardless of how we pressure-tested them. I outlined the first paper, and she wrote it up (…). This happened with a second paper, and then a third paper (which was one that was based on her own discovery while digging through the data).

これは クリエイティブ または 型にはまらない考え方といったものではない.

これは QRPing (問題ある研究活動)である.

Wansink教授はどうなったか?

  • かなり批判され, 彼の研究は精査された (e.g., van der Zee, Anaya, & Brown, 2017).
  • 100以上におよぶ間違い が4本の論文から発見された…
  • 現在では 40本 (!!) の論文が 撤回されている (as of July 2019).
  • 1年に及ぶ国際的な調査の結果, 彼は 辞職へと追い込まれた.

これって本当に そこまで いけない事なの?…

もちろんいけません.

  • Martinson, Anderson, & Vries (2005): “Scientists behaving badly”.
  • Fanelli (2009): Meta-analysis shows evidence of science misconduct.
  • John et al. (2012): Evidence for QRPs in psychology.
  • Mobley, Linder, Braeuer, Ellis, & Zwelling (2013): Reported evidence of pressure to find significant results.
  • Agnoli, Wicherts, Veldkamp, Albiero, & Cubelli (2017): Evidence of QRPs, now in Italy.
  • Fraser, Parker, Nakagawa, Barnett, & Fidler (2018): In other fields of science.

興味深いことに、研究における不正行為は長い間懸念されてきた (see Babbage, 1830).

参考までに:
数名の研究者は、現在の研究における現状はそれ程悪くないとしている(e.g., Fiedler & Schwarz, 2016).

研究の事前登録(preregistration)をすればQRPs(問題ある研究活動)はなくなるのか?…

残念ながら, (まだ)そうはならない.

ちなみに、(2019年7月の)日本の研究グループ(九州大学)でも研究の事前登録がなされています:

Ikeda, A., Xu, H., Fuji, N., Zhu, S., & Yamada, Y. (2019). Questionable research practices following pre-registration [Preprint]. doi: 10.31234/osf.io/b8pw9

But why?…

なぜQRP(問題ある研究活動)は蔓延しているのか?

それはインセンティブ(誘因)と深く関係がある (Nosek, Spies, & Motyl, 2012; Schönbrodt, 2015).

  • “Publish or perish”(論文などを書かない学者は消滅する):
    より多くの論文を、より権威あるジャーナルに出版しなければならないという現実.
    • ジャーナルは提出されたうちのごく一部の論文しか出版しない.
    • ジャーナルは否定的な結果(予期されていない結果)を出版したがらない…
  • 終身雇用のポジションを得るため.
  • 研究費を得るため.
  • 名声 (賞, マスコミに注目される等).



しかし, 忘れてはならないのは, 研究者の最善の意図を持ってしても問題ある研究活動は起こり得るということである.

  • 不十分な統計科目の教育 (そう、統計学者はこの点を理解すべきであると思います!…).
  • 各分野にある永続的な伝統.

(I)reproducibility
再現性

再現できる研究への脅威

Munafò et al. (2017)

  • 研究における仮説演繹法.
  • での記述: このモデルにおける潜在的な脅威.

再現実験(追試)の欠如

つい最近(Makel, Plucker, & Hegarty, 2012).

  • 心理学における再現率が非常に低い (推定1%未満).
  • 2012年までは, 主な再現実験は うまくいっていた!!
  • しかし, 多くのケースにおいて、オリジナルの研究も追試研究も同日研究者によって報告されていた…
  • Conflict of interest(利益の衝突)?…

有名な 追試の失敗

Didn’t we see this coming?
これは予測できる事ではなかったのか?

Meehl (1967)

我々がいかに不完全に仮説を立てているか (see Gelman):

“It is not unusual that (…) this ad hoc challenging of auxiliary hypotheses is repeated in the course of a series of related experiments, in which the auxiliary hypothesis involved in Experiment 1 (…) becomes the focus of interest in Experiment 2, which in turn utilizes further plausible but easily challenged auxiliary hypotheses, and so forth. In this fashion a zealous and clever investigator can slowly wend his way through (…) a long series of related experiments (…) without ever once refuting or corroborating so much as a single strand of the network.”

Say what?…

Cohen (1962)

Low-powered experiments (検出力の低い実験):

“(…) It was found that the average power (probability of rejecting false null hypotheses) over the 70 research studies was .18 for small effects, .48 for medium effects, and .83 for large effects. These values are deemed to be far too small.”

“(…) it is recommended that investigators use larger sample sizes than they customarily do.”

Kahneman (2012)