йо! Като доставчик на трансформатори често ме питат какви набори от данни обикновено се използват за обучение на модели на трансформатори. Това е супер интересна тема и днес ще я разделя на всички вас.
Първо, нека разберем защо наборите от данни имат толкова голямо значение, когато става въпрос за обучение на трансформаторни модели. Тези модели са като тези супер умни обучаеми, но се нуждаят от много данни, за да учат наистина добре и да могат да правят всякакви страхотни неща, като езиков превод, генериране на текст и дори да отговарят на вашите въпроси, точно както аз правя сега.
1. Набори от данни на Уикипедия
Един от най-популярните набори от данни са данните от Wikipedia. Той е огромен и обхваща широк спектър от теми. Имате статии за история, наука, технологии, култура и почти всичко под слънцето. Езикът, използван в статиите в Уикипедия, също е доста разнообразен и добре структуриран.


Страхотното при използването на данни от Wikipedia е, че те са публично достъпни. Можете просто да отидете и да вземете информацията, от която се нуждаете (разбира се, следвайки правилните правила и разпоредби). Моделите трансформатори могат да научат много от него, включително речник, граматика и знания за различни области. Например, ако обучавате модел да отговаря на въпроси с общи знания, данните от Wikipedia могат да осигурят солидна основа. Моделът може да разбере как са свързани различните концепции, като например как определена научна теория е свързана с нейните приложения в реалния свят.
2. BookCorpus
BookCorpus е друг страхотен набор от данни. Както подсказва името, той се състои от голяма колекция от книги. Книгите са различни от статиите в Уикипедия. Те често имат наративна структура, а използваният език може да бъде по-креативен и нюансиран.
Когато използвате BookCorpus за обучение на модел Transformer, моделът може да научи за техниките за разказване на истории, развитието на героите и различни стилове на писане. Това е наистина полезно, ако искате да обучите модел за задачи като творческо писане или генериране на текст в по-литературен контекст. Моделът може да започне да имитира потока и ритъма на добре написани книги и може да генерира текст, който се чете по-плавно и увлекателно.
3. Обикновено обхождане
Common Crawl е масивен набор от данни. По същество това е огромна колекция от уеб страници, които редовно се обхождат и архивират. Мащабът на Common Crawl е умопомрачителен. Има петабайти данни.
Предимството на използването на Common Crawl е, че той представя реалната употреба на езика в интернет. Имате всякакъв вид съдържание, от новинарски статии и блогове до публикации в социални медии и рецензии на продукти. Това означава, че модел на Transformer, обучен на Common Crawl, може да разбира и генерира текст, който е подобен на това, което хората действително пишат и четат онлайн. Недостатъкът обаче е, че данните са доста шумни. Има много боклуци, като спам, реклами и лошо написано съдържание. Така че трябва да направите много почистване и предварителна обработка, преди да го използвате за обучение на вашия модел.
4. Набори от данни за прегръщащи се лица
Hugging Face има тази наистина страхотна колекция от набори от данни. Те са подбрали цял куп различни набори от данни за различни задачи. Имате набори от данни за анализ на настроението, разпознаване на именувани обекти и машинен превод, само за да назовем няколко.
Хубавото на наборите от данни за Hugging Face е, че те са лесни за достъп и използване. Hugging Face предоставя библиотека на Python, която ви позволява да изтегляте и предварително обработвате наборите от данни само с няколко реда код. Те също така имат много документация и примери, така че дори и да сте нови в работата с набори от данни, можете да започнете доста бързо. Тези набори от данни също са добре организирани и често идват с предварително дефинирани разделения за обучение, валидиране и тестване, което прави процеса на обучение много по-прост.
5. TREC (Конференция за повторно извличане на текст) Набори от данни
TREC наборите от данни се използват главно за извличане на информация и задачи с отговори на въпроси. Те съдържат набор от документи и набор от въпроси, на които трябва да се отговори въз основа на тези документи.
Тези набори от данни са страхотни, защото са специално проектирани да тестват и обучават модели как да намират подходяща информация в голям набор от текстове. Трансформаторните модели, обучени на TREC набори от данни, могат да станат наистина добри в бързото сканиране на документи и извличането на най-подходящите отговори. Това е супер полезно в приложения като търсачки и цифрови библиотеки, където потребителите търсят специфична информация.
Сега нека ви разкажа малко за трансформаторите, които доставяме. Имаме някои наистина висококачествени продукти, катоБърз безшумен захранващ трансформатор Бърза реакция Ултра тих. Този трансформатор е не само бърз, но и изключително тих, идеален за места, където шумът може да бъде проблем.
Ние също имамеМаслен трансформатор. Тези видове трансформатори са чудесни за приложения с висока мощност. Те са проектирани да се справят с големи количества електричество и са много надеждни.
А за тези, които се нуждаят от още повече мощност, имамеМаслен разпределителен трансформатор с голям капацитет. Това лошо момче може да разпредели огромно количество енергия, което го прави идеален за индустриална употреба.
Ако се интересувате от някой от тези продукти или ако имате въпроси относно наборите от данни за обучение на трансформаторни модели, не се колебайте да се свържете с нас. Ние сме тук, за да ви помогнем да вземете най-добрите решения за вашите нужди. Независимо дали сте изследовател, който иска да обучи следващия голям модел трансформатор, или бизнес, нуждаещ се от висококачествени трансформатори, ние ще ви покрием. Нека започнем разговор и да видим как можем да работим заедно!
Референции
- Браун, Том Б. и др. "Езиковите модели са малко - простреляни учащи." Напредък в системите за обработка на невронна информация 33 (2020): 1877 - 1901.
- Рафел, Колин и др. „🤗 Набори от данни: Общност – библиотека за обработка на естествен език.“ arXiv препринт arXiv:2010.10759 (2020).
- Калън, Джейми и др. „TREC – доклад с отговор на 8 въпроса.“ Конференция за извличане на текст. Vol. 8. 2000 г.
