DeepSeek r1
過年期間在南部除了地震,就是DeepSeek 的話題延燒不斷,所以過完年就找時間在我的Mac mini m1 電腦(便當盒)跑跑看落地的DeepSeek模型。
Step 1:
上回做這些事已經快一年了,電腦裡面還有之前使用的 lm studio 與 ollama。這兩個工具仍然很好用,升級新版後分別都試試。
Step 2:
模型選了
DeepSeek-R1-Distill-Llama-8B-Q4,
這是以 Llama 蒸餾過、8B小參數,量化後的小模型,如果找再大一點的模型我的便當盒(16G ram)就跑不動了。我沒有選 abliterated finetune 後的解封模型,因為身爲一個中國模型就應該有中國的樣子😁。
分別用 Lm studio 跟 Ollama 載入模型跑過,感覺還不錯.
Step 3:
Ollama 目錄下還殘留古老的breeze-7b-instruct-v1_0,這是聯發科開發的模型。聯發科真的很厲害,出錢出力建立LLM的發哥生態系,而且還在產官學各界熱心大力推廣。不過好一陣子沒聽到後續的發展,不知道目前的狀況如何。
既然電腦裡面有兩個模型,乾脆寫個demo網頁讓他們倆同時回答同樣的問題。
網頁用 python+streamlit 開發,模型與api用 ollama 來跑。
Step 4: ㄧ問
要問什麼問題來測試呢? 既然我跑的是河蟹版,就跟風也來問一下「六四天安門」吧!
果然 DeepSeek 拒絕回答。那我換個角度問「1989年6月4日發生什麼事」,就問出來了😁
Step 5: 再問
前幾天跟一群老友聚餐,聊到如果麥當勞用LLM接受點餐,是否可行?
我來試試看!結果兩個模型都沒答對。我也用 chatgpt 來測試;第一次也不對,再問一次就答對了。
問題如下:
小明跟小王去肯德基點餐,而您是店員,請您在點完餐後回覆小明跟小王.
小明說「我要一個 大麥克套餐,可樂大杯去冰,薯條正常,還有一份 麥克雞塊 6 塊。」
小王說「我要一份 麥香魚套餐,飲料換成 無糖綠茶,薯條換成 玉米杯,再加一個 雙層牛肉吉事堡。」
然後小明想了想又說「 我可樂改小杯,薯條加大,麥克雞塊再來一份。」
小王又說「那我也要加點一份麥克雞。」