建築釺

不是我，而是多臂人:智能選擇如何提高你的測試

通過鮑裏斯Revechkis2018年9月21日

在這個行業，我們都需要知道我們的行為是否會產生我們想要的結果，坦白地說，我們想要盡快知道。緩慢、反複測試的日子一去不複返了。今天，我們可以係統地提前測試我們的行為。在市場營銷中，A\B\n和多元測試已經使用了幾十年，用於定量地比較一條或多條消息彼此之間以及與對照(即根本沒有消息)的效果。尤其是在數字營銷中，主題行測試和類似類型的副本測試從未如此簡單。

但是，還有一些細節需要考慮。執行有意義的測試需要多少數據?經驗法則是向10%的觀眾發送信息A和10%的信息b。在測量結果後，你向剩下的80%發送“更好”的信息。但是10%足夠了嗎?你有沒有發現有意義的區別?相反，每個測試組的10%會不會太多?你是否因為測試一條明顯低劣的信息而浪費了大量用戶的機會?每條消息及其產生的回應或缺乏回應構成了一個可以用來學習和改進的數據點(如果你喜歡的話，也可以是數據)。那麼，為什麼要使用不利用這一有價值信號的特別規則呢?與聰明的選擇通過Braze，我們可以提前係統地測試我們的行為，而不是通過反複試驗慢慢地學習。

智能選擇將決定向用戶發送什麼消息視為一個Multi-Armed強盜問題——一個著名的場景，最初構思於第二次世界大戰期間。想象一下我在一排老虎機前，裏麵有100個25美分的硬幣。我可以按任何順序一次玩一台機器。如果我贏了，我可以拿回一美元。否則，我什麼也得不到。問題是，所有的機器都有不同的獲勝幾率，我一開始不知道它們是什麼。如果我把第一個四分之一的錢投進一台隨機選擇的機器並贏了，我可能會把第二個四分之一的錢投進同一台機器。但第二次，萬一我輸了怎麼辦?我應該繼續在這台機器上花更多的錢嗎?如果第一次中獎隻是僥幸，而其他一些機器有更高的支付概率呢? I need to spend more quarters to explore the other options. Or, we can continue exploiting the machines for which we already know something about the payout probability. You can see why this is known as an exploration vs. exploitation problem, and it’s a good analogy for choosing which marketing message might be best.

有一個解決這個難題的方法叫做湯普森抽樣．在人工智能的學術領域中，湯普森抽樣首先假設所有的選項都一樣好，並在各種選項中以相等的比例發送一些測試消息。然後，它會查看每個期權的支付曆史，並計算它們的概率。使用此信息，它創建了一個蒙特卡羅模擬-來自模擬老虎機的數萬張虛擬圖紙*具有與目前觀察到的真實數據相同的統計屬性。中描述了相同的方法《黑鏡》的一集)。然後，該算法查看這些模擬的結果，並計算出盡管選擇了明顯的“最佳”選項，但我們會損失多少錢。然後，它為這些選項分配了一定比例的未來策略，盡管這些選項目前看起來較差，但由於缺乏信息，它們可能比目前看起來更好。

算法會重複這個過程，直到有足夠的數據表明繼續探索是不必要的，而且可能是浪費的。到那時，勝負已經決出，測試也就結束了。但如果我們不確定，我們就會繼續把一部分劇本分配給人們不太了解的替代方案。在某些情況下，湯普森抽樣已被證明是最好的方法。它確保我減少了選擇獲勝者所需的消息數量。它還允許我盡早停止或修改我的測試，如果我知道沒有明顯的贏家。

重要的是，Thompson Sampling確保我充分測試了所有的替代方案，而不會太快做出決定。在傳統的a /B測試中，人們往往傾向於選擇轉化率較高的消息並將其稱為贏家。例如，如果消息A的轉化率為14%，消息B的轉化率為15%，那麼B肯定更好，對吧?不幸的是，這並不容易。這取決於我們抽樣了多少用戶，以及真正的差異有多大，如果存在的話。這隻是另一種說法，我們不一定知道我們觀察到的差異是否具有統計學意義。湯普森抽樣確保我們在新數據進入時整合它，更新我們對每條信息有效性的理解，並繼續這樣做，直到我們有一個數學上合理的贏家來選擇。

Braze的解決方案讓數據告訴我需要多少測試，而不是使用基於不可靠的經驗法則的假設。有了智能選擇，我可以確定我正在盡可能快地了解我的選擇，並確保盡可能多的用戶得到正確的信息。

*為好奇者提供額外的細節

每個老虎機都被模擬成beta分布的拉力。這個分布通常用來表示比例或百分比的最佳猜測。正如你所期望的那樣，你進行的試驗越多，你就越準確地知道“真實”或“真實”的百分比，因此分布變得越窄。分布實際上是現有證據表明真實百分比可能存在的範圍。一開始，隻經過5次試驗，它幾乎可以在0到1之間的任何地方，我們對任何一個位置的置信度(y軸上的高度)都很低。經過500次試驗，我們非常確定真實的百分比在0.7到0.8之間。當然，在這個玩具示例中，我們知道百分比，因為我們將其設置為0.75。