DeepSeek r1

過年期間在南部除了地震，就是DeepSeek 的話題延燒不斷，所以過完年就找時間在我的Mac mini m1 電腦(便當盒）跑跑看落地的DeepSeek模型。

Step 1:
上回做這些事已經快一年了，電腦裡面還有之前使用的 lm studio 與 ollama。這兩個工具仍然很好用，升級新版後分別都試試。

Step 2:
模型選了
DeepSeek-R1-Distill-Llama-8B-Q4，
這是以 Llama 蒸餾過、8B小參數，量化後的小模型，如果找再大一點的模型我的便當盒（16G ram）就跑不動了。我沒有選 abliterated finetune 後的解封模型，因為身爲一個中國模型就應該有中國的樣子😁。
分別用 Lm studio 跟 Ollama 載入模型跑過，感覺還不錯．

Step 3:
Ollama 目錄下還殘留古老的breeze-7b-instruct-v1_0，這是聯發科開發的模型。聯發科真的很厲害，出錢出力建立LLM的發哥生態系，而且還在產官學各界熱心大力推廣。不過好一陣子沒聽到後續的發展，不知道目前的狀況如何。

既然電腦裡面有兩個模型，乾脆寫個demo網頁讓他們倆同時回答同樣的問題。
網頁用 python+streamlit 開發，模型與api用 ollama 來跑。

Step 4: ㄧ問
要問什麼問題來測試呢？既然我跑的是河蟹版，就跟風也來問一下「六四天安門」吧！
果然 DeepSeek 拒絕回答。那我換個角度問「1989年6月4日發生什麼事」，就問出來了😁

Step 5: 再問
前幾天跟一群老友聚餐，聊到如果麥當勞用LLM接受點餐，是否可行？
我來試試看！結果兩個模型都沒答對。我也用 chatgpt 來測試；第一次也不對，再問一次就答對了。

問題如下：
小明跟小王去肯德基點餐，而您是店員，請您在點完餐後回覆小明跟小王．

小明說「我要一個大麥克套餐，可樂大杯去冰，薯條正常，還有一份麥克雞塊 6 塊。」

小王說「我要一份麥香魚套餐，飲料換成無糖綠茶，薯條換成玉米杯，再加一個雙層牛肉吉事堡。」

然後小明想了想又說「我可樂改小杯，薯條加大，麥克雞塊再來一份。」
小王又說「那我也要加點一份麥克雞。」

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

蛇年試AI

DeepSeek r1

Leave a Reply Cancel reply