Introductie
Algemene toelichting op de database
door J. Thomas Lindblad
Deze algemene toelichting heeft nadere details over de fundamentele structuur van de database en het proces van converteren van informatie uit de oorspronkelijke bron naar de format van de database. Aparte aandacht wordt besteed aan het belangrijke vraagstuk van de identificatie van het afzonderlijke bedrijf.
Fundamentele structuur
De primaire waarnemingseenheid in de database bestaat uit een stuk informatie over een afzonderlijk als vennootschap geregistreerd bedrijf in een van de acht jaren die voor bewerking werden geselecteerd. Hetzelfde bedrijf zal dus minimaal een keer en maximaal acht keer voorkomen in de database.
De bewerking ving aan met een vergelijking tussen twee aaneengesloten jaren, 1925 en 1926. Toen werd duidelijk dat het toevoegen van een volgend of voorgaand jaar bij een reeds ingevoerd jaar weinig nieuwe informatie opleverde ondanks grote inspanning. Dit punt wordt relevant in het licht van financiële beperkingen aan de kosten van de uitermate arbeidsintensieve handmatige invoer van gegevens.[1] Door naast het aparte jaar voor vergelijkende doeleinden zeven peiljaren te selecteren kunnen we de ontwikkeling gedurende drie decennia van daadwerkelijk Nederlands bewind in Indonesië volgen. De peiljaren zijn gescheiden door intervallen van gelijke lengte, telkens vijf jaar: 1910, 1915, 1920, 1925, 1930, 1935 en 1940. De database bestaat dus uit deze zeven peiljaren met toevoeging van het jaar 1926. Dit heeft gevolgen voor de nadere statistische analyse. Doorlopende tijdreeksen veronderstellen jaarlijkse gegevens en kunnen hier niet worden opgebouwd. Dergelijke reeksen moeten vervangen worden door vergelijkingen tussen de zeven geselecteerde momenten van waarneming.
Hoewel de aflevering voor 1926 tien procent minder vermeldingen bevat dan die voor 1925, 3275 bedrijven tegenover 3497 bedrijven, bleek de informatie voor de meerderheid van de bedrijven nagenoeg identiek. Dit inspireerde ons tot een methode van invoer die maximaal gebruik maakt van informatie die al aanwezig is in de database. Het jaar 1920 kon daardoor worden opgebouwd vanuit een kopie van het jaar 1925, met de nodige toevoegingen en weglatingen; op dezelfde wijze is het jaar 1930 mede afgeleid uit 1926. Deze procedure werd herhaald voor de voorgaande en nakomende jaren. Dank zij deze procedure kon een aanzienlijke besparing worden gerealiseerd.[2]
De database omvat in totaal 22.471 vermeldingen van bedrijven, een gemiddelde van 2809 vermeldingen per jaar. Het jaar met het grootste aantal is 1920 met 3736 vermeldingen, het jaar met het kleinste aantal 1935 met 1884 vermeldingen. De globale trends – toename van 1910 naar 1920, afname van 1920 naar 1935, enig herstel tot 1940 – doet denken aan de voorlopige bevindingen van de vroege bewerking van deze bron, zij het dat de trends nu steviger onderbouwd zijn.
De database heeft de opzet van een spreadsheet met rijen van bedrijven en kolommen van variabelen. Ten behoeve van het overzicht volgt hier een lijst van de 16 variabelen met de daarbij behorende karakteristieken:
A Year ordinaal nummer voor het jaar van de aflevering
B ID Number toegekend ordinaal nummer ter identificatie van het bedrijf
C Firm Name kwalitatieve variabele voor firmanaam uit de bron na aanpassing
D Sector toegekende lettercode voor de economische sector
E Branch toegekende lettercode voor bedrijfstak
F Stated Aim kwalitatieve variabele voor doelstelling als in de bron
G Founded jaar van oprichting als in de bron
H Headquarters geografische naam als in de bron
I Location geografische naam van de plaats van activiteiten als in de bron
J Director persoonsnaam van manager als in de bron
K Equity kwantitatieve variabele voor maatschappelijk kapitaal als in de bron
L Currency toegekende lettercode voor valuta van maatschappelijk kapitaal
M Dividend kwantitatieve variabele voor dividendpercentage als in de bron
N Dividend Year year waarop dividenduitkering betrekking heeft, als in de bron
O Firm Name Supplement verduidelijking van firmanaam als in de bron
P Owners personen of bedrijven die het bedrijf bezitten, als in de bron
Van bron naar database
Hierna volgt gedetailleerde uitleg, per variabele, van de wijze waarop de informatie uit het Handboek geselecteerd werd en waar nodig aangepast moest worden aan de format van de database.
Variabele A Year
Dit is het jaar van de aflevering van het Handboek. Dit jaar hoeft niet noodzakelijkerwijs samen te vallen met het jaar waarin de gegeven informatie van toepassing is. Gelet op het inleveren van formulieren door abonnees uiterlijk in oktober voorafgaande aan de publicatie, is het aannemelijk te verwachten dat de informatie uit het lopende jaar ook voor het volgende jaar al gelden, met de opvallende uitzondering van uitgekeerde dividenden die in de regel betrekking hebben op een eerder jaar. Het getal van deze variabele kan niet ontbreken. Elk ander getal dan de acht geselecteerde jaartallen is een betreurde fout.
Varabele B ID Number
De afleveringen van het Handboek bevatten geen verwijzingen naar andere afleveringen. Daarom moest een manier worden gevonden om vermeldingen van hetzelfde bedrijf in meerdere afleveringen te onderscheiden. Dit wordt gedaan door middel van een identificatienummer dat als volgt is opgebouwd:
- eerste cijfer: een code voor het jaar waarin het bedrijf in kwestie voor de eerste maal tegengekomen werd bij de opbouw van de database. De codering is: 1910 = 9, 1915 = 1, 1920 = 2, 1925 = 3, 1926 = 4, 1930 = 5, 1935 = 6, 1940 = 7.
- tweede tot en met vijfde cijfer: het paginanummer van de aflevering van het Handboek waar het bedrijf voor het eerst is gesignaleerd.
- zesde cijfer: het nummer van de alinea o de pagina in het Handboek waar het bedrijf voor het eerst is gesignaleerd. In de regel bevat een pagina in het Handboek maximaal vier of vijf alinea’s. Het getal ‘9’ is een fictieve alinea die gebruikt werd bij wijzigingen van de identificatie.
Het juiste identificatienummer werd aan alle vermeldingen in de database toegekend nadat de identiteit van het bedrijf was vastgesteld.
Variabele C Firm Name
De bron geeft de naam van elke onderneming; er komen geen bedrijven zonder naam voor. De bedrijfsnaam is echter gegeven in een verbijsterende variatie aan formats. Zo is een aanduiding van het type bedrijf vaak opgenomen in de volledige bedrijfsnaam. De meest voorkomende aanduidingen zijn Cultuur-Maatschappij en Handel-Maatschappij, maar daarnaast worden ook talloze andere aanduidingen gebruikt. Geografische aanduidingen worden eveneens vaak toegevoegd, veelal ‘Nederlandsch-Indisch, of anders een verwijzing naar een afzonderlijke regio of plaats. Het gebruik van dergelijke toevoegingen dreigt het unieke deel van de bedrijfsnaam te verdoezelen; bovendien is dat unieke deel onderhevig aan veranderingen in spelling. Dit heeft als gevolg dat de herkenbaarheid van het afzonderlijke bedrijf in de bron ernstig belemmerd wordt, zowel ten aanzien van andere bedrijven als ten opzichte van vermeldingen van hetzelfde bedrijf in andere afleveringen.
In de database zijn nagenoeg alle oorspronkelijke bedrijfsnamen uit de bron aangepast aan een format, waarin de unieke bedrijfsnaam voorop staat en waarbij kortheidshalve soms overbodige niet-specifieke informatie is weggelaten. De aanpassing van de informatie uit de bron behelsde tevens een harmonisatie van de spellingsvarianten van de unieke bedrijfsnaam. Waar een vergaande aanpassing van de bedrijfsnaam noodzakelijk bleek, is volledigheidshalve de oorspronkelijke formulering bewaard en ondergebracht onder een aparte rubriek (variabele O hierna).
Variabele D Sector
De bron bevat uiteraard geen verdeling van bedrijven naar economische sector. Een dergelijke classificatie is echter onontbeerlijk voor doeleinden van statistische analyse. Daarom zijn alle vermeldingen in de database voorzien van een code die globaal de economische sector aangeeft waarin de activiteiten van het bedrijf hebben plaatsgevonden. De sector werd toegekend op basis van informatie zowel in een eventuele toevoeging aan de bedrijfsnaam ter aanduiding van het type bedrijf (variabele C) als in de omschrijving van voorgenomen activiteiten in de bron (variabele F). Zeven codes zijn gebruikt:
A landbouw, stelselmatig toegepast voor alle bedrijven aangeduid als Cultuur-Maatschappij, behalve wanneer expliciet niet-agrarische activiteiten vermeld werden.
B financiën, in het bijzonder het bankwezen, maar ook met inbegrip van andere financiële instellingen.
I industrie en nijverheid in ruime zin, uitgezonderd mijnbouw.
M mijnbouw, met inbegrip van olie.
O overige economische activiteiten, vaak niet gespecificeerd, inclusief openbare dienstverlening.
S commerciële diensten in ruime zin.
T handel, stelselmatig toegepast voor alle bedrijven aangeduid als Handel-Maatschappij, behalve wanneer expliciet andere activiteiten dan handel vermeld werden.
Sporadisch zijn onnauwkeurigheden helaas onvermijdelijk, deels vanwege het gebrek aan duidelijkheid in de omschrijvingen van activiteiten zoals in de bron gegeven, deels door wijzigingen in het schema van classificatie.[3] Een apart probleem betreft bedrijven met meervoudige economische activiteiten verspreid over meer dan een sector. De structuur van de database laat slechts een code voor sector per bedrijfsvermelding toe. Nadere interpretatie van de omschrijving van activiteiten was dan nodig om de meest waarschijnlijk hoofdtak vast te stellen. De toekenning van de code voor sector krijgt hierdoor onvermijdelijk een subjectief element van interpretatie.
Landbouw is met 8145 bedrijfsvermeldingen (36 procent) bij uitstek de drukst bezette sector, gevolgd op de tweede plaats door handel met 4171 vermeldingen (18,5 procent) en in de derde plaats door de categorie ‘Overige’, 2020 vermeldingen ( 9 procent). In een conventionele economische analyse, maken bedrijven met de code A de primaire sector uit, bedrijven met de codes I en M de secundaire sector en de overige bedrijven (codes B, O, S en T) de tertiaire sector.
Variabele E Branch
Evenmin als ten aanzien van de economische sector komt in de bron een classificatie naar bedrijfstak voor. Wederom vormt een schema van classificatie een onontbeerlijk instrument bij een analyse gericht op de economische bedrijvigheid. Een bedrijfstakcode werd daarom aan nagenoeg alle bedrijven buiten de handel toegekend; deze berdrijven vertegenwoordigden 81 procent van de totale populatie (18.271 bedrijfsvermeldingen). Het extreme overwicht van niet nader gespecificeerde activiteiten bij de handelsmaatschappijen sloot een nadere differentiatie naar bedrijfstak uit.
In e meeste gevallen bleek het goed mogelijk de bedrijfstak te onderscheiden bij bedrijven buiten de handelssector. Daarbij werd gebruik gemaakt van de officiële doelstellingen (variabele F), soms in combinatie met de toegevoegde aanduiding van het type activiteiten in de bedrijfsnaam. De bedrijfstakcodes voor de sectoren A, B, I, M, O en S zijn als volgt:[4]
A cof (koffie), cop (copra), gen (landbouw in het algemeen), kin (kina), olie (vegetarische oliën), rice (rijst, inclusief kiemplant), rub (rubber), sug (suiker), tea (thee), tob (tabak), var (diverse, waaronder citroenmelisse, fibers, kunstmest, palmolie en tapioca).
B bank, fin (niet-bancaire financiële instellingen), verz (verzekeringen).
I mach (machines, inclusief metaal), tex (textiel), var (diverse nijverheid, waaronder drank, chemicaliën, sigaretten, leer, scheepsbouw en zeep), wood (hout, inclusief houtkap).
M min (mijnbouw, waaronder steenkolen, goud en zilver en tin), oil (aardolie).
O bio (bioscoop en theater), hotel (horeca), ice (ijs en mineraalwater), pharm (apotheek), print (drukkerij en uitgeverij), publ (openbare diensten, bij voorbeeld electriciteit), tran (vervoer in ruime zin, inclusief auto’s, treinen, schepen en havenfaciliteiten), var (diverse, vaak gespecialiseerde winkelnering).
S con (bouw, met inbegrip van aannemers en bouwmaterialen), real (onroerend goed), var (allerlei soorten professionele dienstverlening, inclusief boekhouding, reclame, ingenieurs- technische bureaus).
Wederom zijn sporadische onnauwkeurigheden niet te vermijden, deels door het gebrek aan duidelijk in de informatie uit de bron, maar ook door vergissingen in de interpretatie bij het overbrengen van de informatie naar de format van de database.
De voornaamste bedrijfstakken waren rubberplantages in sector A, 1635 vermeldingen (7,3 procent), bouwnijverheid in de sector S, 1359 vermeldingen (6 procent), ‘diverse’ nijverheid in sector I, 1280 vermeldingen (5,7 procent) en vervoer in sector O met 842 vermeldingen (3,7 procent).
Variabele F Stated Aim
De meeste bedrijven in het Handboek gaven een omschrijving van huidige en voorgenomen activiteiten. Deze omschrijvingen zijn echter vaak onnodig breedsprakig en wel eens ook nog tamelijk vaag of diffuus. Een mogelijke verklaring kan zijn dat het bedrijf als bewuste strategie besloot een ruim terrein van activiteiten te claimen, dit met het oog op een mogelijke uitbreiding in de toekomst die dan zonder tussenkomst door aandeelhouders zou kunnen plaatsvinden. Het is bijgevolg vaak moeilijk de core business van de onderneming te distilleren uit alleen dit stuk informatie. N de praktijk kon dit alleen worden vastgesteld bij 14.360 vermeldingen (64 procent van het totaal).
De inhoud van deze variabele is uitsluitend afgeleid uit de daadwerkelijk in de bron gegeven informatie, dus niet op grond van interpretaties van onder meer de bedrijfsnaam. Bovendien gaat het hier om een alfanumerieke variabele die een tekst oplevert die zich moeilijk laat persen in de format van een spreadsheet. Gecombineerd andersoortige informatie speelde deze variabele echter en belangrijke rol bij de toekenning van de codes voor sector en bedrijfstak (de variabelen D en E).
Variabele G Founded
Dit is het jaar van oprichting van het bedrijf als vennootschap met beperkte aansprakelijkheid voor de eigenaren. Deze informatie is verstrekt voor bijna alle bedrijven, 22.066 vermeldingen ofwel 98 procent van het totaal. De exacte datum en de datum van bekendmaking in een officieel orgaan van staatswege als het Nederlandsch Staatsblad zijn vermeld in de bron maar weggelaten in de database. Het jaar van oprichting mot uiteraard hetzelfde zijn voor vermeldingen van hetzelfde bedrijf in meerdere afleveringen van het Handboek. Dit gegeven bleek een bruikbaar hulpmiddel bij de identificatie van het afzonderlijke bedrijf.
Variabele H Headquarters
De stad waar het hoofdkantoor van het bedrijf zetelt wordt bijna altijd vermeld en is bekend voor 22.382 bedrijfsvermeldingen (99,6 procent van het totaal). Deze informatie werd rechtstreeks uit de bron overgenomen zonder enige harmonisatie van wijzigingen in de spelling en ook zonder een verdeling naar regio in Nederlands-Indië of landen buiten de Nederlandse kolonie. De meest populaire locatie van de zetel van een bedrijf was Batavia (nu Jakarta) in Nederlands-Indië, terwijl Amsterdam voorop liep onder locaties van de zetel buiten de kolonie en Londen de meest voorkomende locatie was buiten zowel Nederland als Nederlands-Indië.
Bedrijven met Nederlandse eigenaren hadden een uitgesproken voorkeur voor een zetel in Nederland, mogelijk vanwege de toegang tot de Nederlandse kapitaalmarkt en contacten met andere Nederlandse bedrijven of de Nederlandse overheid. Kleinere bedrijven met Nederlandse eigenaren vaak kozen een zetel in de kolonie, meestal dicht bij de plaats van economische activiteiten. Hetzelfde patroon zien we ook onder niet-Nederlandse bedrijfseigenaren. Bedrijven met Chinese of inheems Indonesische eigenaren of managers hadden per definitie hun zetel in Nederlands-Indië.
De plaats van zetel speelt een cruciale rol bij de identificatie van afzonderlijke bedrijven en ook bij het onderscheid van bedrijven naar nationaliteit.
Variabele I Location
De locatie van de bedrijfsmatige activiteiten wordt expliciet gegeven voor slechts 3105 vermeldingen, 15 procent van het totaal. Dit aantal omvat zowel regio’s als steden. Deze informatie is rechtstreeks overgenomen uit de bron, wederom zonder harmonisatie van spellingsvarianten of nadere interpretatie met behulp van andersoortige bronnen.
Deze variabele kent enige eigenaardigheden. De meest opvallende moeilijkheid ligt in het overwicht van meerdere locaties waar de activiteiten plaatsvinden. Aangezien de structuur van de database slechts een enkele locatie voor activiteiten toestaat, bleek het noodzakelijk om die locatie te kiezen die het best de core business van het bedrijf leek te weerspiegelen. Een leeg veld betekent hier dat de informatie niet explicit aanwezig is in de bron of, wat vaker voorkomt, dat het bij een bedrijf met activiteiten op meerdere locaties ondoenlijk bleek de belangrijkste daarvan te onderscheiden.
Een andere moeilijkheid houdt verband met veranderingen van locatie in de loop van de tijd. Dergelijke informatie werd meegenomen bij de vermelding in het relevante jaar, maar kon twijfels oproepen bij een correcte identificatie van het bedrijf op basis van opeenvolgende vermeldingen.
Variabele J Director
De naam van de directeur van het bedrijf is bekend voor de meeste bedrijven, ongeveer 85 procent dan het totaal (19.209 vermeldingen). Dit getuigt van de hoge mate waarin abonnees het expliciete verzoek zijn nagekomen van de uitgever om de naam van de directeur te vermelden. Soms is echter niet geheel duidelijk precies welke functie de vermelde persoon heeft bekleed. Bij kleinere ondernemingen is het waarschijnlijk de eigenaar als directeur fungeert. Deze informatie werd niet meegenomen in de vroege pogingen tot bewerking van deze bron aangezien de software in die tijd alleen bewerking van numerieke variabelen toestond. De opname van een groot aantal persoonsnamen van directeuren nodigt uit tot een analyse van zakelijke netwerken.
Variabele K Equity
Het maatschappelijk kapitaal van de onderneming is gegeven voor bijna alle bedrijven, 21.983 vermeldingen ofwel 98 procent van het totaal. Dit getuigt opnieuw van de ruime bereidheid van abonnees om gevolg te geven aan de uitdrukkelijke verzoeken door de uitgever. Het maatschappelijk kapitaal is meestal gegeven zowel voor het nominale bedrag als voor het daadwerkelijk gestorte kapitaal. In de regel heeft de informatie in de database betrekking op gestort maatschappelijk kapitaal. Gebruikers dienen echter te bedenken dat het gestorte kapitaal geen volledig beeld geeft van de middelen die het bedrijf ter beschikking had. Informatie over financiële reserves wordt zelden verstrekt en is niet opgenomen in de database.
Alle bedragen zijn in duizenden van de gebruikte valuta, veelal de Nederlandse gulden. Bedrijven die in de kolonie zijn opgericht, kunnen hun maatschappelijk kapitaal in Nederlands-Indische guldens hebben uitgedrukt. Buitenlandse bedrijven met niet-Nederlandse eigenaren en overzeese zetels gebruikten meestal de valuta van het land van herkomst bij de opgave van het maatschappelijk kapitaal. Voorafgaand aan nadere analyse dienen dergelijke geldbedragen te worden omgerekend naar Nederlandse guldens (variabele L hierna).
Bij een volstrekt gebrek aan informatie over aantallen werknemers en omzet wordt het maatschappelijk kapitaal de enige maatstaf voor de omvang van de onderneming.[5] Deze financiële parameter kan daarom een sleutelrol spelen in de statistische analyse.
Variabele K Currency
De standaardvaluta in de bron en de database is de Nederlandse gulden, waarvan de waarde nagenoeg identiek was aan die van de Nederlands-Indische gulden.[6] Deze variabele heeft uitsluitend betrekking op het maatschappelijk kapitaal zoals vermeld in de bron (variabele K). De gulden worden gebruikt om het maatschappelijk kapitaal uit te drukken in het overgrote deel van de gevallen, 94 procent ofwel 21.044 bedrijfsvermeldingen. De enige andere valuta van betekenis in de bron is het pond sterling, gebruikt in 801 vermeldingen (3,5 procent van het totaal). Een hele reeks andere buitenlandse valuta’s zijn goed voor slechts 170 van alle bedrijfsvermeldingen (minder dan 1 procent).
In het stelsel van de Gouden Standaard, dat in Nederland tot 1936 toegepast werd, golden vaste wisselkoersen ten opzichte van buitenlandse valuta’s. Een omrekening van opgaven van maatschappelijk kapitaal vóór 1936 wordt eenvoudigweg gedaan met gebruikmaking van de geldende wisselkoersen. De wisselkoersen waren: £ 1 = ƒ 12,50, US $ 1 = ƒ 2,50, ¥ 1 = ƒ 1,23, 1 Thaël (soms gebruikt door Chinese bedrijven) = ƒ 0,74, 1 DK (Deense kroon) = 1 NK (Noorse kroon) = 1 SEK (Zweedse kroon) = ƒ 0,67, 1 DM = ƒ 0,59, 1 SFR (Zwitserse franc) = ƒ 0,48, 1 FFR (Franse franc) = ƒ 0,0, 1 BFR (Belgische franc) = ƒ 0,07. Deze omrekening is essentieel om het maatschappelijk kapitaal van verschillende nationaliteit met elkaar te vergelijken.
Variabele M Dividend
Het dividendpercentage wordt gegeven als het procentuele aandeel van het nominale maatschappelijk kapitaal dat in het komend jaar aan aandeelhouders zal worden uitgekeerd. In de regel wordt het dividendpercentage bepaald op grond van de financiële resultaten in een voorgaand jaar; dat jaar wordt onder een aparte rubriek vermeld (variabele N). Een dividendpercentage boven nul is gegeven voor 3605 bedrijfsvermeldingen of wel 16 procent van het totaal. Bij 1237 vermeldingen (5,5 procent) wordt het dividendpercentage expliciet als ‘nihil’ vermeld. Voor alle overige bedrijfsvermeldingen geeft de bron überhaupt geen dividendpercentage; dit is het geval bij 17.248 vermeldingen ofwel 78,5 procent van het totaal.
Het is ondenkbaar dat zoveel particuliere bedrijven met hun activiteiten in Nederlands-Indië er niet in slaagden voldoende winsten te behalen om enige vergoeding op het geïnvesteerde kapitaal te kunnen bieden. Naast teleurstellende financiële resultaten, zijn er meerdere redenen waarom een bedrijf kan besluiten om af te zien van dividenduitkeringen aan zijn aandeelhouders. Bovendien zijn er aannemelijke redenen waarom de abonnees op het Handboek dit soort gevoelige informatie niet aan het grote publiek kenbaar wilden maken. De verplichting om informatie over dividenduitkeringen in jaarverslagen geldt alleen voor ondernemingen die genoteerd zijn op de effectenbeurs.
Er is geen enkele manier om te komen te weten in hoeverre een dividendpercentage van nul tegenvallende financiële resultaten weerspiegelt of in hoeverre deze informatie met opzet is weggelaten. Dit noopt tot voorzichtigheid bij berekeningen van gemiddelde winstvoeten in de tijd of in vergelijking met andere sectoren of bedrijfstakken. De uitkomsten kunnen verminkt worden door berekeningen met inbegrip van expres als ‘nihil’ opgegeven percentages. De veiligste procedure is daarom om uitsluitend percentages van groter dan nul in de berekeningen op te nemen.
Variabele N Dividend Year
Volledigheidshalve wordt in de database het jaar gespecificeerd waarop het vermelde dividendpercentage (variabele M) betrekking heeft. Meestal gaat om een verwijzing naar en of twee jaar eerder. Dit is van toepassing zowel bij dividendpercentages boven nul Als wanneer het percentage als ‘nihil’ is opgegeven, bij elkaar 4730 berijfsvermeldingen (21 procent). Deze informatie suggereert dat het gegeven niveau van dividendpercentage gebruikelijk was in de tijd van de betreffende aflevering van het Handboek.
Variabele O Firm Name Supplement
Dit is de volledige bedrijfsnaam zoals in de bron geschreven, vóór aanpassingen om consistentie en herkenbaarheid te waarborgen. Het wordt gegeven voor 18.809 bedrijfsvermeldingen ofwel 84 procent van het totaal. Deze informatie werd alleen weggelaten wanneer er geen verschil was met de bedrijfsnaam die al in de database voorkomt (variabele C). De volledige bedrijfsnaam leent zich niet gemakkelijk voor een alfabetische rangschikking van bedrijven of vermeldingen van hetzelfde bedrijf omdat de volledige naam meestal met een aanduiding van het type activiteiten begint.
Variabele P Owners
De eigenaren van het bedrijf kunnen zowel particulieren als andere ondernemingen zijn. Deze informatie wordt slechts bij een minderheid van de berijfsvermeldingen gegeven, bij 3154 vermeldingen ofwel 14 procent van het totaal. Gecombineerd met de namen van de directeuren (variabele J), kan deze informatie haar nut bewijzen bij een analyse van zakelijke netwerken.
Identificatie van het afzonderlijke bedrijf
De CBI database kan op tweeërlei wijze worden geraadpleegd. Alle bedrijfsvermeldingen komen voor in zowel de standaardformat van een spreadsheet als in een catalogus van alfabetisch gerangschikte bedrijven per jaar. De vermeldingen in de catalogus bieden een snel overzicht van relevante informatie betreffende het afzonderlijke bedrijf. Gebruik van het unieke identificatienummer (variabele B) stelt de gebruiker in staat vermeldingen van hetzelfde bedrijf op meerdere momenten van waarneming te volgen. De procedure ter identificatie van het afzonderlijke bedrijf vormde een essentieel onderdeel van de conversie van informatie uit de bron naar de database.
De database werd opgebouwd door middel van een systematische vergelijking van de informatie in een al afgesloten jaar met de informatie voor het nog toe te voegen jaar. Deze methode bracht een beslissing met zich mee in hoeverre een bedrijf in de nieuwe aflevering inderdaad identiek was aan een al in de database opgenomen bedrijf. Wanneer dat het geval was, kon het toegekende identificatienummer worden gehandhaafd. Vier criteria werden gebruikt: het unieke onderdeel van de bedrijfsnaam, het jaar van oprichting, de voorgenomen economische activiteiten, en ten slotte, the orde van grootte van het maatschappelijke kapitaal. Het meest betrouwbare criterium bleek het jaar van oprichting te zijn, terwijl de bedrijfsnaam en de doelstellingen vatbaarder waren voor variaties qua spelling of formulering. Bij de omvang van het maatschappelijk kapitaal waren veranderingen in de tijd waarschijnlijk, echter niet sprongen van een orde van grootte naar een andere. Zodra een bedrijf niet identiek bleek te zijn aan een al in de database opgenomen bedrijf, werd hiervoor een nieuw identificatienummer toegekend.
Het identificatienummer heeft als zodanig geen intrinsieke betekenis. Dit nummer geeft slechts de plaats in het Handboek aan waar dit specifieke bedrijf voor het eerst werd tegengekomen. Het voornaamste voordeel van het identificatienummer ligt in zijn functie als instrument bij een statistische analyse van opeenvolgende waarnemingen van hetzelfde bedrijf op maximaal acht moment van observatie. Een dergelijke analyse kan inzichten opleveren in de bedrijfsgeschiedenis van het de afzonderlijke onderneming.
De directste manier om het afzonderlijke bedrijf in de database op te sporen blijft echter de bedrijfsnaam. Dat is dan ook de reden waarom het noodzakelijk was om de volledige bedrijfsnaam zoals gegeven in de bron, aan te passen door het unieke deel van de naam voorop te zetten. Toch leverde de aanpassing in enkele gevallen bedrijven op met gelijkluidende aangepaste bedrijfsnamen. Deze anomalie kon slechts worden ondervangen door een fictief nummer aan de bedrijfsnaam toe te voegen.
De identificatie die opgelegd werd aan bedrijven die afzonderlijk van elkaar vermeld zijn in de bron, is niet helemaal onfeilbaar. Er zijn twee types fouten denkbaar. Een daarvan treedt op wanneer twee bedrijfsvermeldingen hetzelfde identificatienummer hebben gekregen ofschoon het feitelijk twee verschillende ondernemingen zijn. Het andere type doet zich voor wanneer meerdere vermeldingen betreffende hetzelfde bedrijf niet hetzelfde identificatienummer toegekend hebben gekregen. Door middel van meerdere controles zoals bedrijfsnamen per identificatienummer en identificatienummer per bedrijfsnaam, werd getracht dergelijke fouten tot een minimum te beperken.
Noten
[1] De optie van volledigheid werd gekozen bij het maken van de microfilm van alle 53 afleveringen van het Handboek (Universiteits Bibliotheek Leiden: Bijzondere collecties, Collectie KIT). Ook bij het gebruik van microfilms voor is handmatige invoer uiteraard noodzakelijk om de informatie in gecomputeriseerde format te gieten.
[2] De totale inspanning van handmatige invoer is geraamd op 360 werkdagen.
[3] De activiteiten van een bedrijf geduid als Cultuur-Maatschappij kunnen heel goed gesitueerd zijn buiten de landbouw ook wanneer dit niet expliciet vermeld wordt. Bedrijven aangeduid als Handel-Maatschappijen kunnen eveneens voornamelijk werkzaam zijn buiten de handel. Bij een heel klein aandeel van de bedrijfsvermeldingen, 28 bedrijven (0,001 procent), worden verouderde codes aangetroffen van voor wijzigingen in de codering. Deze codes zijn: H (=T), N (=M) en D, P en W (=O).
[4] Het systeem van classificatie werd meerdere malen gewijzigd tijdens het opbouwen van de database. Dit verklaart het sporadische gebruik van de originele Nederlandstalige bedrijfstakcodes.
[5] Een rudimentaire alternatieve indicatie van de omvang van landbouwondernemingen is het aantal en de oppervlakte van plantages in het bezit van het bedrijf. Namen van de plantages worden gewoonlijk gegeven in de vermelding van het bedrijf, terwijl gedetailleerde informatie over de plantages te vinden is in een apart hoofdstuk van het Handboek. Op soortgelijke wijze kan de omvang van een handelsonderneming afgeleid worden uit het aantal bijkantoren in Nederlands-Indië die achterin het Handboek opgesomd zijn en gerangschikt naar stad.
[6] W.L. Korthals Altes, De betalingsbalans van Nederlandsch-Indië 1822-1939. PhD dissertatie, Erasmus Universiteit Rotterdam (1986) xvi.