Uit de cursus: Excel met Copilot: AI-gestuurde data-analyse

Tekstanalyse met geavanceerde analyse in Copilot

Uit de cursus: Excel met Copilot: AI-gestuurde data-analyse

Tekstanalyse met geavanceerde analyse in Copilot

- De tekstverwerkingsmogelijkheden van [Instructor] Excels, met name voor taken zoals natuurlijke taalverwerking, zijn van oudsher beperkt, maar de introductie van Python in Excel breidt deze mogelijkheden aanzienlijk uit. En nu met Copilot en geavanceerde analyse wordt het verkrijgen van inzichten uit tekstgegevens veel toegankelijker. Als u deze demo wilt volgen, kunt u de werkmap geavanceerde-analyse-tekstanalyse-start openen. We gaan werken met een bekende dataset voor filmrecensies, die 50.000 filmrecensies bevat, vooraf geclassificeerd als negatief of positief in sentiment. We beginnen met het gebruik van Copilot om onze gegevens door te geven aan geavanceerde analyse en te kijken wat we kunnen ontdekken. Laten we naar Copilot gaan en we gaan naar geavanceerde analyse. We zullen hier dezelfde berichten zien. Laten we beginnen met onze geavanceerde analyse. En nogmaals, wat je hier ziet is misschien wel heel anders dan wat ik krijg. Dus laten we de dobbelstenen gooien en kijken wat er gebeurt. Nu, bijna elk geval van geavanceerde analyse, of eigenlijk elk geval dat ik heb gezien, begint met het inlezen van de gegevens uit de tabel die hier is gedaan met de XL-functie. Als je dat ziet aan deze eerste cel in het rapport hier. U kunt meer leren over hoe Python en Excel gegevens uit Excel halen met Python- en Excel-cursussen uit de LinkedIn-bibliotheek. We zien hier wel een preview van de dataset. Dus om er zeker van te zijn dat deze gegevens correct in Python in Excel zijn ingelezen, en nu lijkt het erop dat het gaat proberen om wat verkennende gegevensanalyse uit te voeren op de beoordelingen. Oké, dus het lijkt erop dat Copilot onze analyse hier heeft voltooid. En nogmaals, u kunt doorgaan met enkele van deze voorgestelde aanwijzingen. Laten we eens kijken wat de uitvoer hier als het ware logt. We zien een beetje informatie over wat Copilot ons heeft gegeven. Visualisaties, hier zijn de visualisaties. Die zullen we zo bespreken, maar ik wil hier wel iets zien. U zult merken dat er eigenlijk een fout was die Python gooide bij het uitvoeren van de code die door Copilot was gegenereerd. Dus Copilot genereerde wat code, Python voerde het uit. Python is een fout tegengekomen, en Copilot is eigenlijk slim genoeg om die fout te nemen en te herschrijven en je te vertellen wat de fout was en het kan je waarschijnlijk niet schelen, toch, want het is opgelost. Maar dat laat alleen maar zien hoe intelligent deze tools zijn, toch? Dat ze hier echt hun eigen fouten kunnen herstellen. Laten we doorgaan en hier naar beneden gaan naar de resulterende percelen. Dus de eerste, we krijgen een barplot. Het toont ons de verdeling van positieve versus negatieve beoordelingen. Het geeft het weer als een verhouding. We kijken dus naar een 50/50 verdeling van positieve versus negatieve beoordelingen. Dat kan heel goed zijn om te weten als we voorspellende modellen proberen te bouwen, we willen een idee hebben van hoe gebruikelijk het is om in een van beide categorieën te resulteren. Het lijkt er dus op dat het daar ongeveer 50/50 is. Oké, bekijk de lengteverdeling. Dus dit is best interessant. Het toont ons de algemene verdeling van hoe lang elke recensie is. Misschien willen we dit verder opsplitsen en is een langere recensie nu meestal positief of negatief van aard, toch? Er zijn dus een aantal verschillende dingen die we kunnen doen als het gaat om de lengte van de beoordeling. Het laatste wat we hier beneden hebben is een woordwolk. Wat dit nu probeert te doen, is visualiseren hoe vaak bepaalde woorden hier in de gegevens verschijnen en het is logisch. Dingen als film, film, enzovoort zijn gebruikelijk. Ik denk dat het misschien gemakkelijker is om dit gewoon te plotten als een staafdiagram of zoiets. Mensen bekritiseren woordwolken vaak omdat ze nogal moeilijk te lezen zijn en niet echt veel bruikbare informatie overbrengen. Ze zien er best cool uit, maar soms is het echt moeilijk om er kop of staart van te maken. Dus het is interessant dat Copilot ons in dit geval plots gaf, toch? Terwijl we in het laatste voorbeeld daar specifiek om moesten vragen. Je wilt er zeker van zijn dat je visualisaties, tabellen en analyses gebruikt in combinatie met Copilot en Python. Dus nogmaals, goed om te begrijpen en al goede vragen in gedachten te hebben voor wat belangrijk zou kunnen zijn. Dus één ding dat ik ga doen, is laten we iets verder specificeren. Ik ga Copilot vragen om de meest voorkomende 15 woorden te geven voor sentiment, positief of negatief. (toetsenbord klakt) Oké, nu lijkt het erop dat we in dit geval een foutmelding krijgen die Copilot niet zelf kan oplossen. Ik ga naar cel A40 en het lijkt erop dat we een time-outfout hebben. Dus wat hier gebeurde, is dat deze Python-code wordt uitgevoerd, de resultaten worden uitgevoerd in de cloud en worden teruggestuurd naar onze werkmap en het lijkt erop dat er gewoon een soort time-out was. Dit is een grotere dataset, dus het kan zijn dat we het gewoon opnieuw moeten proberen. Ik ga door en vraag dit gewoon nog een keer en laten we eens kijken of we geluk kunnen hebben. Dit is een grotere dataset, dus het verbaast me niet dat we hier een time-out krijgen. Ik kon dit eerder uitvoeren, dus laten we eens kijken wat er deze keer gebeurt. Oké, nu lijkt het erop dat we hier een resultaat hebben kunnen behalen. De preview is op dit moment echter niet bepaald in een erg leesbaar formaat. We zouden kunnen proberen er een voorbeeld van te krijgen, maar alles wat we hier zien is deze dataframe-waarde. Dus wat ik in dit geval ga proberen te doen, is Copilot vragen om dit te visualiseren. Laten we eens kijken of we een mooie plot van deze resultaten kunnen krijgen. (toetsenbord klakt) Oké, dus het lijkt erop dat dit werkt. Laten we hier een beetje op inzoomen en je ziet de top 10, of sorry, de top 15 meest voorkomende positieve woorden, toch? Top 15 meest voorkomende woorden in negatieve recensies, om specifieker te zijn. Je kunt deze bekijken, dit laat zien hoe lastig het kan zijn om tekst te analyseren en de betekenis van tekstgegevens te begrijpen, zoals je hier gaat zien, dingen als goed en geweldig verschijnen in de positieve recensies, maar goed komt ook naar voren in de negatieve recensies. Dus daar laten we het bij, en je kunt dit verder onderzoeken als je Copilot misschien wilt vragen om een voorspellend model te bouwen, met de vraag: kan het voorspellen of een filmrecensie als positief of negatief wordt geclassificeerd? Je zou dat kunnen proberen, maar zoals je hier ziet, moet je echt in staat zijn om met de stoten mee te gaan en verschillende dingen van Copilot te vragen, of je een time-out krijgt, of de output niet helemaal in een formaat is dat gemakkelijk te begrijpen is, toch? Het hebben van die nieuwsgierige instelling en het echt kennen van de analistentoolbox van verschillende manieren om de gegevens te formatteren, verschillende manieren om de gegevens te interpreteren, verschillende diagnostiek die je misschien wilt uitvoeren voordat je het evangelie van een analyse neemt, zal erg belangrijk zijn als je werkt met Copilot en Python, want er zijn zoveel richtingen die deze tool kan inslaan. U wilt er dus zeker van zijn dat u via deze aanwijzingen precies kunt krijgen wat u wilt.

Inhoud