DeepSeek: რევოლუციური, რომელიც ხელოვნური ინტელექტის ლანდშაფტს რევოლუციონირებს

AIPU WATON GROUP

შესავალი

მიმდინარე შფოთვა კონკურენტ მსხვილ მოდელებს, ბაზრის წილის მოსაპოვებლად მეტოქე ღრუბლოვანი პროვაიდერებსა და შრომისმოყვარე ჩიპების მწარმოებლებს შორის - DeepSeek-ის ეფექტი გრძელდება.

გაზაფხულის ფესტივალის დასასრულს, DeepSeek-ის გარშემო არსებული აჟიოტაჟი კვლავ ძლიერია. ბოლო დღესასწაულმა ტექნოლოგიურ ინდუსტრიაში კონკურენციის მნიშვნელოვანი განცდა გამოავლინა, ბევრი ამ „ლოქოს“ განიხილავს და აანალიზებს. სილიკონის ველი უპრეცედენტო კრიზისს განიცდის: ღია კოდის დამცველები კვლავ გამოთქვამენ თავიანთ მოსაზრებებს და OpenAI-ც კი ხელახლა აფასებს, იყო თუ არა მისი დახურული კოდის სტრატეგია საუკეთესო არჩევანი. დაბალი გამოთვლითი ხარჯების ახალმა პარადიგმამ ჯაჭვური რეაქცია გამოიწვია ჩიპ გიგანტებს შორის, როგორიცაა Nvidia, რამაც გამოიწვია რეკორდული ერთდღიანი საბაზრო ღირებულების ზარალი აშშ-ის საფონდო ბირჟის ისტორიაში, ხოლო სამთავრობო უწყებები იკვლევენ DeepSeek-ის მიერ გამოყენებული ჩიპების შესაბამისობას. საზღვარგარეთ DeepSeek-ის არაერთგვაროვანი შეფასებების ფონზე, ქვეყნის შიგნით ის არაჩვეულებრივ ზრდას განიცდის. R1 მოდელის გამოშვების შემდეგ, მასთან დაკავშირებულმა აპლიკაციამ ტრაფიკის ზრდა განიცადა, რაც მიუთითებს, რომ აპლიკაციების სექტორების ზრდა ხელოვნური ინტელექტის ეკოსისტემას წინ წაწევს. დადებითი ასპექტი ის არის, რომ DeepSeek გააფართოვებს აპლიკაციების შესაძლებლობებს, რაც იმაზე მიუთითებს, რომ ChatGPT-ზე დაყრდნობა მომავალში ისეთი ძვირი არ იქნება. ეს ცვლილება აისახა OpenAI-ის ბოლოდროინდელ აქტივობებში, მათ შორის DeepSeek R1-ის საპასუხოდ მომხმარებლებისთვის o3-mini სახელწოდების მსჯელობის მოდელის მიწოდებაში, ასევე შემდგომ განახლებებში, რამაც o3-mini-ს აზროვნების ჯაჭვი საჯარო გახადა. ბევრმა საზღვარგარეთელმა მომხმარებელმა მადლობა გადაუხადა DeepSeek-ს ამ განვითარებისთვის, თუმცა ეს აზროვნების ჯაჭვი შეჯამებას წარმოადგენს.

ოპტიმისტურად, აშკარაა, რომ DeepSeek აერთიანებს ადგილობრივ მოთამაშეებს. ტრენინგის ხარჯების შემცირებაზე ფოკუსირებით, სხვადასხვა ჩიპების მწარმოებელი, შუალედური ღრუბლოვანი პროვაიდერები და მრავალი სტარტაპი აქტიურად უერთდებიან ეკოსისტემას, რაც ზრდის DeepSeek მოდელის გამოყენების ხარჯთეფექტურობას. DeepSeek-ის ნაშრომების თანახმად, V3 მოდელის სრული ტრენინგისთვის საჭიროა მხოლოდ 2.788 მილიონი H800 GPU საათი და ტრენინგის პროცესი ძალიან სტაბილურია. MoE (ექსპერტების ნაზავი) არქიტექტურა გადამწყვეტია ტრენინგის წინა ხარჯების ათჯერ შემცირებისთვის, 405 მილიარდი პარამეტრის მქონე Llama 3-თან შედარებით. ამჟამად, V3 არის პირველი საჯაროდ აღიარებული მოდელი, რომელიც აჩვენებს MoE-ს ასეთ მაღალ იშვიათობას. გარდა ამისა, MLA (მრავალშრიანი ყურადღება) სინერგიულად მუშაობს, განსაკუთრებით მსჯელობის ასპექტებში. „რაც უფრო იშვიათია MoE, მით უფრო დიდი პარტიის ზომაა საჭირო მსჯელობის დროს გამოთვლითი სიმძლავრის სრულად გამოსაყენებლად, ხოლო KVCache-ის ზომა არის მთავარი შემზღუდველი ფაქტორი; MLA მნიშვნელოვნად ამცირებს KVCache-ის ზომას“, - აღნიშნა Chuanjing Technology-ის მკვლევარმა AI Technology Review-სთვის გამოქვეყნებულ ანალიზში. საერთო ჯამში, DeepSeek-ის წარმატება სხვადასხვა ტექნოლოგიების კომბინაციაშია და არა მხოლოდ ერთის. ინდუსტრიის წარმომადგენლები აქებენ DeepSeek-ის გუნდის საინჟინრო შესაძლებლობებს, აღნიშნავენ მათ სრულყოფილებას პარალელურ ტრენინგსა და ოპერატორების ოპტიმიზაციაში, რამაც ყველა დეტალის დახვეწით რევოლუციური შედეგების მიღწევა გამოიწვია. DeepSeek-ის ღია კოდის მიდგომა კიდევ უფრო უწყობს ხელს დიდი მოდელების საერთო განვითარებას და მოსალოდნელია, რომ თუ მსგავსი მოდელები გაფართოვდება სურათებში, ვიდეოებსა და სხვა პროექტებში, ეს მნიშვნელოვნად გაზრდის მოთხოვნას მთელ ინდუსტრიაში.

მესამე მხარის მსჯელობის სერვისების შესაძლებლობები

მონაცემები მიუთითებს, რომ გამოშვების შემდეგ, DeepSeek-მა სულ რაღაც 21 დღეში 22.15 მილიონი ყოველდღიური აქტიური მომხმარებელი (DAU) დააგროვა, რითაც ChatGPT-ის მომხმარებელთა ბაზის 41.6%-ს მიაღწია და Doubao-ს 16.95 მილიონ ყოველდღიურ აქტიურ მომხმარებელს გადააჭარბა, რითაც მსოფლიოში ყველაზე სწრაფად მზარდი აპლიკაცია გახდა, რომელიც Apple App Store-ის რეიტინგს 157 ქვეყანაში/რეგიონში ლიდერობს. თუმცა, მიუხედავად იმისა, რომ მომხმარებლები მასობრივად იზრდებოდა, კიბერჰაკერები დაუნდობლად ესხმოდნენ თავს DeepSeek აპლიკაციას, რაც მის სერვერებზე მნიშვნელოვან დატვირთვას იწვევდა. ინდუსტრიის ანალიტიკოსები თვლიან, რომ ეს ნაწილობრივ განპირობებულია იმით, რომ DeepSeek ბარათებს ტრენინგისთვის იყენებს, მაშინ როცა მას არ აქვს საკმარისი გამოთვლითი ძალა მსჯელობისთვის. ინდუსტრიის ერთ-ერთმა წყარომ AI Technology Review-ს განუცხადა: „სერვერის ხშირი პრობლემების მოგვარება მარტივად შეიძლება საკომისიოს დაწესებით ან მეტი მანქანის შესაძენად დაფინანსებით; საბოლოო ჯამში, ეს DeepSeek-ის გადაწყვეტილებებზეა დამოკიდებული“. ეს ტექნოლოგიასა და პროდუქტიზაციაზე ფოკუსირების კომპრომისს წარმოადგენს. DeepSeek ძირითადად თვითკმარობისთვის კვანტურ კვანტიზაციას ეყრდნობოდა, რადგან მცირე გარე დაფინანსება ჰქონდა მიღებული, რაც შედარებით დაბალ ფულად ნაკადს და უფრო სუფთა ტექნოლოგიურ გარემოს იწვევდა. ამჟამად, ზემოაღნიშნული პრობლემების გათვალისწინებით, ზოგიერთი მომხმარებელი სოციალურ მედიაში მოუწოდებს DeepSeek-ს გაზარდოს გამოყენების ზღვრები ან დანერგოს ფასიანი ფუნქციები მომხმარებლის კომფორტის გასაუმჯობესებლად. გარდა ამისა, დეველოპერებმა დაიწყეს ოფიციალური API-ს ან მესამე მხარის API-ების გამოყენება ოპტიმიზაციისთვის. თუმცა, DeepSeek-ის ღია პლატფორმამ ცოტა ხნის წინ განაცხადა: „სერვერის მიმდინარე რესურსები მწირია და API სერვისის შევსება შეჩერებულია“.

 

ეს, უდავოდ, ხელოვნური ინტელექტის ინფრასტრუქტურის სექტორში მესამე მხარის მომწოდებლებისთვის მეტ შესაძლებლობებს ქმნის. ბოლო დროს, მრავალმა ადგილობრივმა და საერთაშორისო ღრუბლოვანმა გიგანტმა DeepSeek-ის მოდელის API-ები გამოუშვა - საზღვარგარეთის გიგანტები Microsoft და Amazon პირველებს შორის იყვნენ, ვინც იანვრის ბოლოს შეუერთდა. ადგილობრივმა ლიდერმა, Huawei Cloud-მა, პირველი ნაბიჯი გადადგა და 1 თებერვალს Silicon-ზე დაფუძნებულ Flow-თან თანამშრომლობით DeepSeek R1 და V3 მსჯელობის სერვისები გამოუშვა. AI Technology Review-ის ანგარიშები მიუთითებს, რომ Silicon-ზე დაფუძნებულ Flow-ის სერვისებს მომხმარებელთა შემოდინება აღენიშნებათ, რამაც პლატფორმა ფაქტობრივად „ჩაშალა“. სამმა მსხვილმა ტექნოლოგიურმა კომპანიამ - BAT (Baidu, Alibaba, Tencent) და ByteDance - ასევე გამოუშვა დაბალი ფასის, შეზღუდული დროით შეთავაზებები 3 თებერვლიდან, რაც გასულ წელს DeepSeek-ის V2 მოდელის გამოშვებით დაწყებული ღრუბლოვანი მომწოდებლების ფასების ომებს მოგვაგონებს, სადაც DeepSeek-ს „ფასების ჯალათის“ სახელი შეარქვეს. ღრუბლოვანი სერვისების მომწოდებლების აჟიოტაჟი Microsoft Azure-სა და OpenAI-ს შორის ადრინდელ მჭიდრო კავშირებს იმეორებს, სადაც 2019 წელს Microsoft-მა OpenAI-ში მნიშვნელოვანი 1 მილიარდი დოლარის ინვესტიცია განახორციელა და 2023 წელს ChatGPT-ის გამოშვების შემდეგ სარგებელი მიიღო. თუმცა, ეს მჭიდრო ურთიერთობა მას შემდეგ დაიშალა, რაც Meta-მ Llama ღია კოდით გამოუშვა, რამაც Microsoft Azure-ის ეკოსისტემის გარეთ მყოფ სხვა მომწოდებლებს მათი დიდი მოდელებისთვის კონკურენციის საშუალება მისცა. ამ შემთხვევაში, DeepSeek-მა არა მხოლოდ ChatGPT-ს გადაასწრო პროდუქტის პოპულარობის თვალსაზრისით, არამედ o1 გამოშვების შემდეგ ღია კოდის მოდელებიც დანერგა, რაც Llama-ს მიერ GPT-3-ის აღორძინების ირგვლივ არსებული აღფრთოვანების მსგავსია.

 

სინამდვილეში, ღრუბლოვანი პროვაიდერები ასევე პოზიციონირებენ საკუთარ თავს, როგორც ხელოვნური ინტელექტის აპლიკაციების ტრაფიკის კარიბჭეებს, რაც იმას ნიშნავს, რომ დეველოპერებთან კავშირების გაღრმავება პრევენციულ უპირატესობებად იქცევა. ანგარიშები მიუთითებს, რომ მოდელის გამოშვების დღეს Baidu Smart Cloud-ს 15 000-ზე მეტი მომხმარებელი ჰყავდა, რომლებიც იყენებდნენ DeepSeek მოდელს Qianfan პლატფორმის მეშვეობით. გარდა ამისა, რამდენიმე მცირე ფირმა გვთავაზობს გადაწყვეტილებებს, მათ შორის სილიკონზე დაფუძნებული Flow, Luchen Technology, Chuanjing Technology და სხვადასხვა AI Infra პროვაიდერი, რომლებმაც დაიწყეს DeepSeek მოდელების მხარდაჭერა. AI Technology Review-მა შეიტყო, რომ DeepSeek-ის ლოკალიზებული განლაგების ამჟამინდელი ოპტიმიზაციის შესაძლებლობები ძირითადად ორ სფეროში არსებობს: ერთი არის MoE მოდელის სიმცირის მახასიათებლების ოპტიმიზაცია შერეული მსჯელობის მიდგომის გამოყენებით, რათა 671 მილიარდი პარამეტრიანი MoE მოდელი ლოკალურად განლაგდეს, ჰიბრიდული GPU/CPU ინფერენციის გამოყენებით. გარდა ამისა, MLA-ს ოპტიმიზაცია სასიცოცხლოდ მნიშვნელოვანია. თუმცა, DeepSeek-ის ორივე მოდელი კვლავ აწყდება გარკვეულ გამოწვევებს განლაგების ოპტიმიზაციაში. „მოდელის ზომისა და მრავალი პარამეტრის გამო, ოპტიმიზაცია მართლაც რთულია, განსაკუთრებით ლოკალური განლაგებისთვის, სადაც შესრულებასა და ხარჯს შორის ოპტიმალური ბალანსის მიღწევა რთული იქნება“, - განაცხადა Chuanjing Technology-ის მკვლევარმა. ყველაზე მნიშვნელოვანი დაბრკოლება მეხსიერების ტევადობის ლიმიტების გადალახვაშია. „ჩვენ ვიყენებთ ჰეტეროგენულ თანამშრომლობის მიდგომას, რათა სრულად გამოვიყენოთ CPU-ები და სხვა გამოთვლითი რესურსები, მხოლოდ იშვიათი MoE მატრიცის არასაერთო ნაწილებს ვათავსებთ CPU/DRAM-ზე მაღალი ხარისხის CPU ოპერატორების გამოყენებით დასამუშავებლად, ხოლო მკვრივი ნაწილები რჩება GPU-ზე“, - განმარტა მან. ანგარიშები მიუთითებს, რომ Chuanjing-ის ღია კოდის ჩარჩო KTransformers ძირითადად შაბლონის საშუალებით შეჰყავს სხვადასხვა სტრატეგია და ოპერატორები Transformers-ის ორიგინალურ იმპლემენტაციაში, მნიშვნელოვნად ზრდის ინფერენციის სიჩქარეს CUDAGraph-ის მსგავსი მეთოდების გამოყენებით. DeepSeek-მა შექმნა შესაძლებლობები ამ სტარტაპებისთვის, რადგან ზრდის სარგებელი აშკარა ხდება; ბევრმა ფირმამ აღნიშნა მომხმარებელთა შესამჩნევი ზრდა DeepSeek API-ის გაშვების შემდეგ, რომლებმაც მიიღეს მოთხოვნები წინა კლიენტებისგან, რომლებიც ოპტიმიზაციას ეძებდნენ. ინდუსტრიის წარმომადგენლებმა აღნიშნეს: „წარსულში, გარკვეულწილად ჩამოყალიბებული კლიენტების ჯგუფები ხშირად იყვნენ ჩართულნი უფრო დიდი კომპანიების სტანდარტიზებულ სერვისებში, მჭიდროდ შებოჭილნი მასშტაბის გამო მათი ხარჯების უპირატესობებით. თუმცა, გაზაფხულის ფესტივალამდე DeepSeek-R1/V3-ის განლაგების დასრულების შემდეგ, ჩვენ მოულოდნელად მივიღეთ თანამშრომლობის თხოვნები რამდენიმე ცნობილი კლიენტისგან და ადრე მიძინებულმა კლიენტებმაც კი დაიწყეს კონტაქტი ჩვენი DeepSeek სერვისების დანერგვის მიზნით“. ამჟამად, როგორც ჩანს, DeepSeek მოდელის დასკვნის შესრულებას სულ უფრო კრიტიკულად აქცევს და დიდი მოდელების ფართოდ დანერგვით, ეს კვლავაც მნიშვნელოვნად იმოქმედებს ხელოვნური ინტელექტის ინფრასტრუქტურის განვითარებაზე. თუ DeepSeek-ის დონის მოდელის ადგილობრივად დანერგვა შესაძლებელი იქნებოდა დაბალ ფასად, ეს მნიშვნელოვნად შეუწყობდა ხელს მთავრობისა და საწარმოების ციფრული ტრანსფორმაციის ძალისხმევას. თუმცა, გამოწვევები კვლავ რჩება, რადგან ზოგიერთ კლიენტს შეიძლება ჰქონდეს მაღალი მოლოდინები დიდი მოდელის შესაძლებლობებთან დაკავშირებით, რაც უფრო აშკარას ხდის, რომ შესრულებისა და ხარჯების დაბალანსება სასიცოცხლოდ მნიშვნელოვანია პრაქტიკული განლაგებისას. 

იმის შესაფასებლად, უკეთესია თუ არა DeepSeek ChatGPT-ზე, აუცილებელია მათი ძირითადი განსხვავებების, ძლიერი მხარეებისა და გამოყენების შემთხვევების გაგება. აქ მოცემულია ყოვლისმომცველი შედარება:

მახასიათებელი/ასპექტი ღრმა ძიება ჩატGPT
საკუთრება შემუშავებულია ჩინური კომპანიის მიერ შემუშავებულია OpenAI-ის მიერ
წყაროს მოდელი ღია კოდი საკუთრებაში არსებული
ღირებულება უფასო გამოყენება; API-ზე წვდომის უფრო იაფი ვარიანტები გამოწერის ან გამოყენებისთვის გადახდის ფასები
პერსონალიზაცია მაღალი მორგებადობა, რაც მომხმარებლებს საშუალებას აძლევს, შეცვალონ და განავითარონ იგი შეზღუდული პერსონალიზაცია ხელმისაწვდომია
შესრულება კონკრეტულ ამოცანებში გარკვეულ სფეროებში, როგორიცაა მონაცემთა ანალიტიკა და ინფორმაციის მოძიება, წარმატებას აღწევს მრავალმხრივი, ძლიერი შესრულებით შემოქმედებით წერასა და სასაუბრო ამოცანებში
ენობრივი მხარდაჭერა ძლიერი ყურადღება ჩინურ ენასა და კულტურაზე ფართო ენობრივი მხარდაჭერა, მაგრამ აშშ-ზე ორიენტირებული
ტრენინგის ღირებულება დაბალი ტრენინგის ხარჯები, ოპტიმიზებული ეფექტურობისთვის ტრენინგის უფრო მაღალი ხარჯები, რაც მოითხოვს მნიშვნელოვან გამოთვლით რესურსებს
პასუხის ვარიაცია შესაძლოა, გეოპოლიტიკური კონტექსტით გავლენით, სხვადასხვა პასუხები შემოგთავაზოთ ტრენინგის მონაცემებზე დაფუძნებული თანმიმდევრული პასუხები
სამიზნე აუდიტორია განკუთვნილია დეველოპერებისა და მკვლევარებისთვის, რომლებსაც სურთ მოქნილობა განკუთვნილია ზოგადი მომხმარებლებისთვის, რომლებიც ეძებენ სასაუბრო შესაძლებლობებს
გამოყენების შემთხვევები უფრო ეფექტურია კოდის გენერირებისა და სწრაფი ამოცანების შესასრულებლად იდეალურია ტექსტის გენერირებისთვის, კითხვებზე პასუხის გასაცემად და დიალოგში ჩასართავად

კრიტიკული პერსპექტივა „Nvidia-ს დანგრევაზე“

ამჟამად, Huawei-ს გარდა, DeepSeek-ის ორ მოდელს რამდენიმე ადგილობრივი ჩიპების მწარმოებელიც ეგუება, როგორიცაა Moore Threads, Muxi, Biran Technology და Tianxu Zhixin. ჩიპების მწარმოებელმა AI Technology Review-ს განუცხადა: „DeepSeek-ის სტრუქტურა ინოვაციას აჩვენებს, თუმცა ის LLM-ად რჩება. DeepSeek-თან ჩვენი ადაპტაცია ძირითადად ორიენტირებულია მსჯელობის აპლიკაციებზე, რაც ტექნიკურ დანერგვას საკმაოდ მარტივსა და სწრაფს ხდის“. თუმცა, განათლების სამინისტროს მიდგომა მოითხოვს უფრო მაღალ მოთხოვნებს შენახვისა და დისტრიბუციის თვალსაზრისით, ასევე თავსებადობის უზრუნველყოფასთან ერთად ადგილობრივ ჩიპებთან განლაგებისას, რაც წარმოშობს მრავალ საინჟინრო გამოწვევას, რომელთა მოგვარებაც ადაპტაციის დროსაა საჭირო. „ამჟამად, ადგილობრივი გამოთვლითი სიმძლავრე არ შეესაბამება Nvidia-ს გამოყენებადობისა და სტაბილურობის თვალსაზრისით, რაც მოითხოვს ორიგინალური ქარხნის მონაწილეობას პროგრამული გარემოს დაყენების, პრობლემების მოგვარებისა და ფუნდამენტური შესრულების ოპტიმიზაციისთვის“, - თქვა ინდუსტრიის სპეციალისტმა პრაქტიკულ გამოცდილებაზე დაყრდნობით. ამავდროულად, „DeepSeek R1-ის დიდი პარამეტრების მასშტაბის გამო, ადგილობრივი გამოთვლითი სიმძლავრე მოითხოვს მეტ კვანძს პარალელიზაციისთვის. გარდა ამისა, ადგილობრივი აპარატურის სპეციფიკაციები ჯერ კიდევ გარკვეულწილად ჩამორჩება; მაგალითად, Huawei 910B ამჟამად ვერ უჭერს მხარს DeepSeek-ის მიერ წარმოდგენილ FP8 დასკვნას“. DeepSeek V3 მოდელის ერთ-ერთი მთავარი მახასიათებელია FP8 შერეული სიზუსტის ტრენინგის ჩარჩოს დანერგვა, რომელიც ეფექტურად იქნა დამოწმებული უკიდურესად დიდ მოდელზე, რაც მნიშვნელოვან მიღწევად ითვლება. ადრე, ისეთმა მსხვილმა მოთამაშეებმა, როგორიცაა Microsoft და Nvidia, მსგავსი სამუშაოები შემოგვთავაზეს, მაგრამ ინდუსტრიაში ეჭვები რჩება მის განხორციელებადობასთან დაკავშირებით. გასაგებია, რომ INT8-თან შედარებით, FP8-ის მთავარი უპირატესობა ის არის, რომ ტრენინგის შემდგომი კვანტიზაცია თითქმის უდანაკარგო სიზუსტის მიღწევას შეუძლია, ამავდროულად მნიშვნელოვნად გააუმჯობესოს ინფერენციის სიჩქარე. FP16-თან შედარებით, FP8-ს შეუძლია Nvidia-ს H20-ზე ორჯერ მეტი აჩქარების მიღწევა და H100-ზე 1.5-ჯერ მეტი აჩქარების მიღწევა. აღსანიშნავია, რომ შიდა გამოთვლითი სიმძლავრისა და შიდა მოდელების ტენდენციასთან დაკავშირებული დისკუსიების იმპულსის მოპოვებისას, სულ უფრო გავრცელებული ხდება სპეკულაციები იმის შესახებ, შეიძლება თუ არა Nvidia-ს დარღვევა და შესაძლებელია თუ არა CUDA-ს თხრილის გვერდის ავლა. ერთი უდავო ფაქტია, რომ DeepSeek-მა მართლაც გამოიწვია Nvidia-ს საბაზრო ღირებულების მნიშვნელოვანი ვარდნა, მაგრამ ეს ცვლილება კითხვებს ბადებს Nvidia-ს მაღალი დონის გამოთვლითი სიმძლავრის მთლიანობასთან დაკავშირებით. კაპიტალზე დაფუძნებული გამოთვლითი დაგროვების შესახებ ადრე მიღებული ნარატივები ეჭვქვეშ დგება, თუმცა Nvidia-სთვის ტრენინგის სცენარებში მისი სრულად ჩანაცვლება კვლავ რთულია. DeepSeek-ის მიერ CUDA-ს ღრმა გამოყენების ანალიზი აჩვენებს, რომ მოქნილობა - როგორიცაა SM-ის გამოყენება კომუნიკაციისთვის ან ქსელური ბარათების პირდაპირი მანიპულირება - ჩვეულებრივი გრაფიკული პროცესორებისთვის მიუწვდომელია. ინდუსტრიის თვალსაზრისი ხაზს უსვამს, რომ Nvidia-ს თხრილი მოიცავს მთელ CUDA ეკოსისტემას და არა მხოლოდ თავად CUDA-ს, ხოლო PTX (პარალელური ძაფების შესრულება) ინსტრუქციები, რომლებსაც DeepSeek იყენებს, კვლავ CUDA ეკოსისტემის ნაწილია. „მოკლევადიან პერიოდში, Nvidia-ს გამოთვლითი სიმძლავრის გვერდის ავლა შეუძლებელია - ეს განსაკუთრებით აშკარაა ტრენინგის დროს; თუმცა, შიდა ბარათების განლაგება მსჯელობისთვის შედარებით უფრო ადვილი იქნება, ამიტომ პროგრესი, სავარაუდოდ, უფრო სწრაფი იქნება. შიდა ბარათების ადაპტაცია, ძირითადად, დასკვნაზეა ორიენტირებული; ჯერ არავის მიუღწევია DeepSeek-ის მუშაობის მოდელის მასშტაბური მომზადება შიდა ბარათებზე“, - აღნიშნა ინდუსტრიის ანალიტიკოსმა AI Technology Review-თან ინტერვიუში. საერთო ჯამში, დასკვნის თვალსაზრისით, გარემოებები იმედისმომცემია შიდა დიდი მოდელის ჩიპებისთვის. ადგილობრივი ჩიპების მწარმოებლებისთვის შესაძლებლობები ინფერენციის სფეროში უფრო აშკარაა ტრენინგის ზედმეტად მაღალი მოთხოვნების გამო, რაც ხელს უშლის ბაზარზე შესვლას. ანალიტიკოსები ამტკიცებენ, რომ საკმარისია მხოლოდ ადგილობრივი ინფერენციის ბარათების გამოყენება; საჭიროების შემთხვევაში, შესაძლებელია დამატებითი მანქანის შეძენა, მაშინ როდესაც ტრენინგის მოდელები უნიკალურ გამოწვევებს ქმნის - მანქანების გაზრდილი რაოდენობის მართვა შეიძლება დამღლელი გახდეს და შეცდომების მაღალმა მაჩვენებლებმა შეიძლება უარყოფითად იმოქმედოს ტრენინგის შედეგებზე. ტრენინგს ასევე აქვს კლასტერული მასშტაბის სპეციფიკური მოთხოვნები, მაშინ როდესაც ინფერენციის კლასტერებზე მოთხოვნები ისეთი მკაცრი არ არის, რაც ამსუბუქებს GPU მოთხოვნებს. ამჟამად, Nvidia-ს ერთი H20 ბარათის მუშაობა არ აღემატება Huawei-ს ან Cambrian-ის მუშაობას; მისი ძლიერი მხარე კლასტერიზაციაშია. გამოთვლითი სიმძლავრის ბაზარზე საერთო გავლენის გათვალისწინებით, Luchen Technology-ის დამფუძნებელმა, იუ იანგმა, AI Technology Review-თან ინტერვიუში აღნიშნა: „DeepSeek-მა შეიძლება დროებით შეაფერხოს ულტრადიციული სასწავლო გამოთვლითი კლასტერების შექმნა და დაქირავება. გრძელვადიან პერსპექტივაში, დიდი მოდელების ტრენინგთან, მსჯელობასთან და აპლიკაციებთან დაკავშირებული ხარჯების მნიშვნელოვნად შემცირებით, ბაზრის მოთხოვნა, სავარაუდოდ, გაიზრდება. ამიტომ, ამაზე დაფუძნებული ხელოვნური ინტელექტის შემდგომი იტერაციები მუდმივად გაზრდის მდგრად მოთხოვნას გამოთვლითი სიმძლავრის ბაზარზე“. გარდა ამისა, „DeepSeek-ის გაზრდილი მოთხოვნა მსჯელობისა და დახვეწის სერვისებზე უფრო თავსებადია შიდა გამოთვლით ლანდშაფტთან, სადაც ადგილობრივი შესაძლებლობები შედარებით სუსტია, რაც ხელს უწყობს კლასტერის შექმნის შემდეგ უმოქმედო რესურსების დანაკარგის შემცირებას; ეს ქმნის რეალურ შესაძლებლობებს მწარმოებლებისთვის შიდა გამოთვლითი ეკოსისტემის სხვადასხვა დონეზე“. Luchen Technology-მ Huawei Cloud-თან ითანამშრომლა DeepSeek R1 სერიის მსჯელობის API-ებისა და ღრუბლოვანი ვიზუალიზაციის სერვისების გამოსაშვებად, რომლებიც დაფუძნებულია შიდა გამოთვლით სიმძლავრეზე. იუ იანგმა გამოთქვა ოპტიმიზმი მომავლის მიმართ: „DeepSeek აძლიერებს ნდობას შიდა წარმოების გადაწყვეტილებების მიმართ, რაც ხელს უწყობს უფრო მეტ ენთუზიაზმს და ინვესტიციებს შიდა გამოთვლით შესაძლებლობებში მომავალში“.

微信图片_20240614024031.jpg1

დასკვნა

DeepSeek-ის ChatGPT-ზე „უკეთესი“ ფუნქციონირების შესაძლებლობა მომხმარებლის კონკრეტულ საჭიროებებსა და მიზნებზეა დამოკიდებული. მოქნილობის, დაბალი ღირებულებისა და პერსონალიზაციის საჭიროების მქონე ამოცანებისთვის DeepSeek შესაძლოა უკეთესი იყოს. შემოქმედებითი წერის, ზოგადი კითხვისა და მომხმარებლისთვის მოსახერხებელი სასაუბრო ინტერფეისებისთვის ChatGPT-ს შეუძლია ლიდერის როლი შეასრულოს. თითოეული ინსტრუმენტი სხვადასხვა მიზანს ემსახურება, ამიტომ არჩევანი დიდწილად იმ კონტექსტზე იქნება დამოკიდებული, რომელშიც ისინი გამოიყენება.

იპოვეთ ELV კაბელის გადაწყვეტა

საკონტროლო კაბელები

BMS, BUS, სამრეწველო, ინსტრუმენტული კაბელისთვის.

სტრუქტურირებული საკაბელო სისტემა

ქსელი და მონაცემები, ბოჭკოვანი კაბელი, პაჩკორდი, მოდულები, წინა პანელი

2024 წლის გამოფენებისა და ღონისძიებების მიმოხილვა

2024 წლის 16-18 აპრილი, ახლო აღმოსავლეთის ენერგეტიკა დუბაიში

2024 წლის 16-18 აპრილი, Securika, მოსკოვში

2024 წლის 9 მაისი, ახალი პროდუქტებისა და ტექნოლოგიების გაშვების ღონისძიება შანხაიში

2024 წლის 22-25 ოქტომბერი, SECURITY CHINA, პეკინი

2024 წლის 19-20 ნოემბერი, CONNECTED WORLD, სამხრეთ აფრიკა


გამოქვეყნების დრო: 2025 წლის 10 თებერვალი